可移植文檔格式(PDF)是一種文件格式,有助于以獨立于應用程序軟件,硬件和操作系統(tǒng)的方式呈現(xiàn)數(shù)據(jù)。
每個PDF文件都包含固定布局平面文檔的說明,包括顯示文本,字體,圖形和其他信息。
有幾個庫可用于通過程序創(chuàng)建和操作PDF文檔,例如 -
Adobe PDF庫 - 該庫提供C++,.NET和Java等語言的API,使用此庫可以編輯,查看打印和從PDF文檔中提取文本。
格式化對象處理器 - 由XSL格式化對象和輸出獨立格式化程序驅(qū)動的開源打印格式化程序。 主要輸出目標是PDF。
iText - 這個庫提供了Java, C# 和其他.NET語言等語言的API,使用這個庫可以創(chuàng)建和操作PDF,RTF和HTML文檔。
JasperReports - 這是一個Java報告工具,可在PDF文檔中生成報告,包括Microsoft Excel,RTF,ODT,逗號分隔值和XML文件。
Apache PDFBox是一個開源的Java庫,支持PDF文檔的開發(fā)和轉(zhuǎn)換。 使用這個庫,可以開發(fā)創(chuàng)建,轉(zhuǎn)換和操作PDF文檔的Java程序。
除此之外,PDFBox還包含一個命令行實用程序,用于使用可用的Jar文件對PDF執(zhí)行各種操作。
下面列出PDFBox的特點 -
PNG
或JPEG
。以下是PDFBox的應用 -
Apache Nutch - Apache Nutch是一款開源的網(wǎng)絡搜索軟件。它建立在Apache Lucene的基礎上,添加了一些特定于web的內(nèi)容,例如:爬蟲,鏈接圖數(shù)據(jù)庫,用于HTML和其他文檔格式的解析器等。
Apache Tika - Apache Tika是一個使用現(xiàn)有解析器庫從各種文檔檢測和提取元數(shù)據(jù)和結(jié)構(gòu)化文本內(nèi)容的工具包。
以下是PDFBox的四個主要組件 -