如何解析PDF文件
在.NET中從PDF文件里提取文本的幾種主要方法有:
1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實現;
2、iTextSharp;
3、PDFBox。
不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。
Adobe PDF IFilter
為了使用 IFilter 接口來解析 PDF 文件,你需要:
Windows 2000 或者后續版本
Adobe Acrobat 或 Reader 7.0.5+ (或單獨的 Adobe PDF IFilter [adobe.com])
IFilter COM 封裝類 [dotlucene.net]
樣例代碼:
缺點:
使用了不可靠的 COM 互操作來處理 IFilter 接口 (并且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。
需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人發布可索引的解決方案,會很痛苦。
iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個 Java 的PDF 操作庫iText(http://itextpdf.com/) 的.NET輸出。它主要著眼于編輯PDF而不是閱讀,但它當然也支持從PDF中提取文本(盡管有點大材小用)。
例程:
信用證: 成員號 10364982
缺點:
需要許可證(如果你不喜歡 AGPL許可證 的話)
PDFBox
PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用(參見LucenePDFDocument)。
幸運的是,PDFBox有一個使用IKVM.NET開發的.NET版本 (只需訪問PDFBox下載頁)。
在.NET中使用PDFBox需要引用:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll
并將下列文件復制到bin文件夾下:
commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll
使用PDFBox解析PDF十分簡單:
編譯后的大小加起來差不多有18MB:
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
速度還可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。
感謝bobrien100提供的改進建議。
缺點:
IKVM.NET依賴 (18 MB)
速度(尤其是IKVM.NET的啟動時間)
新聞熱點
疑難解答