Apache PDFBox

Apache PDFBox es una biblioteca de código abierto puramente en Java que permite crear, renderizar, imprimir, dividir, combinar, modificar, verificar y extraer texto y metadatos de archivos PDF.

Logo de Apache PDFBox.

Open Hub informa de más de 11.000 encomiendas (desde el inicio como proyecto Apache) por parte de 18 colaboradores, que representan más de 140.000 líneas de código. PDFBox tiene una base de código madura y bien establecida, mantenida por un equipo de desarrollo de tamaño medio, con un número de commits que aumenta año tras año. Utilizando el modelo COCOMO, se estima que ha supuesto un esfuerzo de 46 personas-año.^[1]

Historia

PDFBox fue iniciado en 2002 en SourceForge por Ben Litchfield, que quería poder extraer texto de archivos PDF para Lucene^[2] Se convirtió en un proyecto Apache Incubator en 2008, y en un proyecto Apache de primer nivel en 2009,^[3]

Preflight (que comprueba la conformidad de los archivos PDF con PDF/A-1b), se llamó originalmente PaDaF y fue desarrollado por Atos worldline, y donado al proyecto en 2011.^[4]

En febrero de 2015, Apache PDFBox fue nombrado Open Source Partner Organization de la PDF Association.^[5]

Estructura

Apache PDFBox tiene los siguientes componentes:

PDFBox: la parte principal
FontBox: gestiona la información sobre fuentes
XmpBox: gestiona los metadatos XMP
Preflight (opcional): comprueba la conformidad de los archivos PDF con PDF/A-1b.