En este post hablaremos sobre la biblioteca de Apache PDFBox el cual es una herramienta para java de código abierto que nos permite trabajar con documentos PDF. Este proyecto entre muchas funciones, te permite la creación y manipulación de documentos PDF. Apache PDFBox también incluye varias utilidades de línea de comandos. Apache PDFBox se publica bajo la licencia Apache v2.0.
Entre las características de Apache PDFBox tenemos:
Pues bien, de las muchas características que posee esta librería, a continuación mostraremos algunos ejemplos prácticos, para eso utilizaremos un documento PDF que contiene imágenes y texto como el que se a continuación
Tu puedes usar algún archivo PDF que tengas pero recomendamos que tenga 1 o 2 paginas, más paginas obviamente requiere de más tiempo de procesamiento.
Extracción de texto
import java.io.File; import java.io.IOException; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.pdmodel.PDDocument; public class Main { public static void main(String[] args) { try (PDDocument document = PDDocument.load(new File("documento.pdf"))) { PDFTextStripper textStripper = new PDFTextStripper(); textStripper.setSortByPosition(true); String texto = textStripper.getText(document); System.out.println(texto); } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
Extracción de imágenes
import java.util.Date; import javax.imageio.ImageIO; import org.apache.pdfbox.cos.COSName; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDPageTree; import org.apache.pdfbox.pdmodel.PDResources; import org.apache.pdfbox.pdmodel.graphics.PDXObject; import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject; import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; public class Main { public static void main(String[] args) { try (PDDocument document = PDDocument.load(new File("documento.pdf"))) { PDPageTree pages = document.getPages(); for (PDPage pdfpage : pages) { PDResources pdResources = pdfpage.getResources(); for (COSName cname : pdResources.getXObjectNames()) { PDXObject object = pdResources.getXObject(cname); if (object instanceof PDImageXObject) { Date date = new Date(); File file = new File(date.getTime() + ".png"); System.out.println("Archivo extraido : " + file.getName()); ImageIO.write(((PDImageXObject) object).getImage(), "png", file); } } } } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
Exportar PDF como imagen PNG
import java.io.File; import javax.imageio.ImageIO; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.rendering.ImageType; import org.apache.pdfbox.rendering.PDFRenderer; public class Main { public static void main(String[] args) { try (PDDocument documento = PDDocument.load(new File("documento.pdf"))) { PDFRenderer pdfRenderer = new PDFRenderer(documento); //recorre todas las paginas for (int page = 0; page < documento.getNumberOfPages(); page++) { //Numero de pagina, escala, tipo de imagen BufferedImage bim = pdfRenderer.renderImageWithDPI(page, 50, ImageType.RGB); //Se guarda en disco File file = new File("imagen_" + page + ".png"); ImageIO.write(bim, "png", file); } documento.close(); } catch (IOException ex) { System.err.println(ex); } } }
Encriptar documento PDF
El cifrado de documentos PDF requiere dos contraseñas:
import java.io.IOException; import java.io.File; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.encryption.AccessPermission; import org.apache.pdfbox.pdmodel.encryption.StandardProtectionPolicy; public class Main { public static void main(String[] args) { try (PDDocument doc = PDDocument.load(new File("documento.pdf"))) { //Definir la longitud de la clave de cifrado. //Los valores posibles son 40 o 128 (256 estarán disponibles en PDFBox 2.0). int keyLength = 128; AccessPermission ap = new AccessPermission(); // Desabilita ap.setCanPrint(false); //impresion ap.setCanModify(false); // modificacion ap.setCanExtractContent(false);//extraccion de informacacion //contraseña para usuario y propietario sera el mismo "123456" StandardProtectionPolicy spp = new StandardProtectionPolicy("123456", "123456", ap); spp.setEncryptionKeyLength(keyLength); spp.setPermissions(ap); doc.protect(spp); doc.save("documento-encriptado.pdf"); doc.close(); System.out.println("Documento encriptado"); } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
En cuanto intentemos abrir el documento PDF, nos solicitara nuestra contraseña
Y si utilizamos el primer código de este post para extraer texto del documento encriptado, obtendremos esta excepción.
enjoy!!!
Los archivos CSV (del inglés comma-separated values – separados por comas) son un tipo de documento en formato abi[...]
En este post, crearemos una aplicación java que nos permita arrastrar un archivo excel hacia la aplicación, abrirlo y ca[...]
En este post crearemos un componente que solo hay en android y que no esta disponible en la paleta de controles de Netbe[...]
Cuando se almacenan imágenes en una aplicación java y se desea después a modo de registro buscar estas y cargarlas en al[...]
Un Fragment representa un comportamiento o una parte de la interfaz de usuario en una Activity. Puedes combinar múltiple[...]
Google AI Studio es una herramienta que permite simplificar la utilizacion de modelos de Inteligencia Artificialde Googl[...]