1.PDFBox的IKVM版本:據我所知,目前只有PDFBox的IKVM版本能比較好地從PDF中提取文本,PDFBOX更多信息請訪問http://www.pdbox.org,關于其應用實例,可以參考CodePRoject上的:http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK(這個價格可不便宜);
3.XPDF:如果條件允許可以考慮使用XPDF的PDFToText,XPDF是用C語言編寫的PDF解析庫,并提供多個工具,開放源代碼(如果你熟悉C和dotnet,也許你可以在dotnet環境下編譯為你所用),但是基于GUN協議,如果商業應用,需要money;更多信息訪問:http://www.foolabs.com/xpdf
4.Ghostscript:另外一個可以考慮的是Ghostscript,官方網址是:www.cs.wisc.edu/~ghost/,抽取Text的方法,google下ps2txt;
5.其它一些相關資源:
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File:http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file:http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947
順便說下,很多朋友詢問iTextSharp中抽取文本的方法,這里說下,就目前而言,iTextSharp還不支持這個功能,也無法抽取圖片,當然我通過摸索也只能抽取最簡單格式的圖片(jpeg),其它的還在研究怎么處理。
新聞熱點
疑難解答