提取文本,包括Unicode字符。和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。加密/解密PDF文檔。PDFBox從PDF和XFDF格式中導(dǎo)入或?qū)С霰韱螖?shù)據(jù)。向已有PDF文檔中追加內(nèi)容。將一個PDF文檔切分為多個文檔。覆蓋PDF文檔。
PDFBox
自從Adobe公司1993年第一次發(fā)布公共PDF參考以來,支持各種語言和平臺的PDF工具和類庫就如雨后春筍般不斷冒出。然而,java應(yīng)用程序開發(fā)的Adobe技術(shù)支持卻相對滯后。。這是個奇怪的現(xiàn)象,因為PDF文檔是企業(yè)信息系統(tǒng)存儲和交換信息的大勢所趨,而Java技術(shù)特別適合這種應(yīng)用。然而,Java開發(fā)人員似乎直到最近才獲得成熟可用的PDF支持。
功能介紹
1、文本提取:從PDF文檔中提取文本。
2、合并&分割:可以把多個PDF文檔合并成單個,也可以把單個PDF分拆成多個PDF文檔。
PDFBox
3、表單填充:可以從PDF表單中提取數(shù)據(jù),或者是填充PDF表單。
4、PDF/A驗證:驗證PDF文檔是否滿足PDF/A ISO標(biāo)準(zhǔn)。
5、PDF打?。喊裀DF文檔輸出到打印機(jī)——利用了Java的打印API。
6、PDF轉(zhuǎn)換:可以把PDF文檔轉(zhuǎn)換成映像文件。
7、PDF創(chuàng)建:可以從頭創(chuàng)建新的PDF文檔。
8、集成Lucene搜索引擎:Lucene搜索引擎與PDF索引相集成。
PDFBox
更新日志
這個版本是基于 2.0.5 版本的增量式 bug 修復(fù)版本,包含了幾個修復(fù)和小改進(jìn),更新如下:
Bug 修復(fù)
[PDFBOX-3313] - Java 9 InaccessibleObjectException
[PDFBOX-3318] - IllegalArgumentException in PDPageTree constructor: root cannot be null
[PDFBOX-3347] - COSName parsing doesn't handle ISO-8859-1 encoded bytes
您的評論需要經(jīng)過審核才能顯示
有用
有用
有用