En este post hablaremos sobre la biblioteca de Apache PDFBox el cual es una herramienta para java de código abierto que nos permite trabajar con documentos PDF. Este proyecto entre muchas funciones, te permite la creación y manipulación de documentos PDF. Apache PDFBox también incluye varias utilidades de línea de comandos. Apache PDFBox se publica bajo la licencia Apache v2.0.
Entre las características de Apache PDFBox tenemos:
Pues bien, de las muchas características que posee esta librería, a continuación mostraremos algunos ejemplos prácticos, para eso utilizaremos un documento PDF que contiene imágenes y texto como el que se a continuación
Tu puedes usar algún archivo PDF que tengas pero recomendamos que tenga 1 o 2 paginas, más paginas obviamente requiere de más tiempo de procesamiento.
Extracción de texto
import java.io.File; import java.io.IOException; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.pdmodel.PDDocument; public class Main { public static void main(String[] args) { try (PDDocument document = PDDocument.load(new File("documento.pdf"))) { PDFTextStripper textStripper = new PDFTextStripper(); textStripper.setSortByPosition(true); String texto = textStripper.getText(document); System.out.println(texto); } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
Extracción de imágenes
import java.util.Date; import javax.imageio.ImageIO; import org.apache.pdfbox.cos.COSName; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDPageTree; import org.apache.pdfbox.pdmodel.PDResources; import org.apache.pdfbox.pdmodel.graphics.PDXObject; import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject; import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; public class Main { public static void main(String[] args) { try (PDDocument document = PDDocument.load(new File("documento.pdf"))) { PDPageTree pages = document.getPages(); for (PDPage pdfpage : pages) { PDResources pdResources = pdfpage.getResources(); for (COSName cname : pdResources.getXObjectNames()) { PDXObject object = pdResources.getXObject(cname); if (object instanceof PDImageXObject) { Date date = new Date(); File file = new File(date.getTime() + ".png"); System.out.println("Archivo extraido : " + file.getName()); ImageIO.write(((PDImageXObject) object).getImage(), "png", file); } } } } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
Exportar PDF como imagen PNG
import java.io.File; import javax.imageio.ImageIO; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.rendering.ImageType; import org.apache.pdfbox.rendering.PDFRenderer; public class Main { public static void main(String[] args) { try (PDDocument documento = PDDocument.load(new File("documento.pdf"))) { PDFRenderer pdfRenderer = new PDFRenderer(documento); //recorre todas las paginas for (int page = 0; page < documento.getNumberOfPages(); page++) { //Numero de pagina, escala, tipo de imagen BufferedImage bim = pdfRenderer.renderImageWithDPI(page, 50, ImageType.RGB); //Se guarda en disco File file = new File("imagen_" + page + ".png"); ImageIO.write(bim, "png", file); } documento.close(); } catch (IOException ex) { System.err.println(ex); } } }
Encriptar documento PDF
El cifrado de documentos PDF requiere dos contraseñas:
import java.io.IOException; import java.io.File; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.encryption.AccessPermission; import org.apache.pdfbox.pdmodel.encryption.StandardProtectionPolicy; public class Main { public static void main(String[] args) { try (PDDocument doc = PDDocument.load(new File("documento.pdf"))) { //Definir la longitud de la clave de cifrado. //Los valores posibles son 40 o 128 (256 estarán disponibles en PDFBox 2.0). int keyLength = 128; AccessPermission ap = new AccessPermission(); // Desabilita ap.setCanPrint(false); //impresion ap.setCanModify(false); // modificacion ap.setCanExtractContent(false);//extraccion de informacacion //contraseña para usuario y propietario sera el mismo "123456" StandardProtectionPolicy spp = new StandardProtectionPolicy("123456", "123456", ap); spp.setEncryptionKeyLength(keyLength); spp.setPermissions(ap); doc.protect(spp); doc.save("documento-encriptado.pdf"); doc.close(); System.out.println("Documento encriptado"); } catch (IOException ex) { System.err.println(ex.getMessage()); } } }
En cuanto intentemos abrir el documento PDF, nos solicitara nuestra contraseña
Y si utilizamos el primer código de este post para extraer texto del documento encriptado, obtendremos esta excepción.
enjoy!!!
JavaFX un producto de Sun Microsystems/Oracle Corporation que salio a la luz para competir con tecnologías como Flash o[...]
En diciembre de 1990 se desarrolló una aplicación llamada WorldWideWeb en una máquina NeXT (programado con el lenguaje O[...]
En este post construiremos un Servicio Web en Java bajo el estandar REST (Representational State Transfer), el cual hace[...]
Laravel tiene varias formas de tratar con las excepciones de nuetros proyectos, uno de ellos es el helper «abort()», est[...]
En este tutorial crearemos el botón de Google+ Google Circles para una interfaz de escritorio 🙂 si no sabes lo que son e[...]
Cuando realizamos proyectos java desde Netbeans, usamos System.out.println para imprimir datos en consola (para dep[...]