Java抽取Word，PDF格式文件的四種武器

2019-11-18 11:15:53

字體：大中小

來源：轉載

供稿：網友

很多人用java進行文檔操作時經常會碰到一個問題，就是如何獲得Word，Excel，pdf等文檔的內容？我研究了一下，在這里總結一下抽取word,pdf的幾種方法。
1. 用jacob
其實jacob是一個bridage，連接java和com或者win32函數的一個中間件，jacob并不能直接抽取word,excel等文件，需要自己寫dll哦，不過已經有為你寫好的了，就是jacob的作者一并提供了。
jacob jar與dll文件下載： http://danadler.com/jacob/
下載了jacob并放到指定的路徑之后(dll放到path,jar文件放到classpath)，就可以寫你自己的抽取程序了，下面是一個簡單的例子：
import java.io.File; import com.jacob.com.*; import com.jacob.activeX.*; /** * Title: pdf extraction * Description: email:chris@matrix.org.cn * Copyright: Matrix Copyright (c) 2003 * Company: Matrix.org.cn * @author chris * @version 1.0,who use this example pls remain the declare */ public class FileExtracter{ public static void main(String[] args) { ActiveXComponent component = new ActiveXComponent("Word.application"); String inFile = "c://test.doc"; String tpFile = "c://temp.htm"; String otFile = "c://temp.xml"; boolean flag = false; try { component.setObject wordacc = component.getProperty("document．").toDispatch(); Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1] ).toDispatch(); Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]); Variant f = new Variant(false); Dispatch.call(wordfile, "Close", f); flag = true; } catch (Exception e) { e.printStackTrace(); } finally { component.invoke("Quit", new Variant[] {}); } } }2. 用apache的poi來抽取word，excel。
poi是apache的一個項目，不過就算用poi你可能都覺得很煩，不過不要緊，這里提供了更加簡單的一個接口給你：
下載經過封裝后的poi包： http://jakarta.apache.org/poi/
下載之后，放到你的classpath就可以了，下面是如何使用它的一個例子：
import java.io.*; import org.textmining.text.extraction.WordExtractor; /** *

Title: word extraction


*Description: email:chris@matrix.org.cn 

*Copyright: Matrix Copyright (c) 2003 

*Company: Matrix.org.cn 

* @author chris 
* @version 1.0,who use this example pls remain the declare 
*/ 

public class PdfExtractor { 
public PdfExtractor() { 
} 
public static void main(String args[]) throws Exception 
{ 
FileInputStream in = new FileInputStream ("c://a.doc"); 
WordExtractor extractor = new WordExtractor(); 
String str = extractor.extractText(in); 
System.out.println("the result length is"+str.length()); 
System.out.println("the result is"+str); 
} 
}

3. pdfbox-用來抽取pdf文件
但是pdfbox對中文支持還不好，先下載pdfbox： http://www.pdfbox.org/
下面是一個如何使用pdfbox抽取pdf文件的例子：

import org.pdfbox.pdmodel.PDdocument． 
import org.pdfbox.pdfparser.PDFParser; 
import java.io.*; 
import org.pdfbox.util.PDFTextStripper; 
import java.util.Date; 
/** 
*



上一篇：JFC/Swing活學活用之創建自定義圖像組件


下一篇：深入WebLogic Portal UI編程














發表評論
共有條評論






用戶名:

密碼:



驗證碼:

 

匿名發表


















學習交流
更多





索泰發布一款GTX 1070 Mini迷


AMD新旗艦顯卡輕松干翻NVIDIA 






索泰發布一款GTX 1070 Mini迷你版本:小機
索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...






usb無線網卡怎么用,小編告訴你安裝教程09-10

usb調試在哪,小編告訴你usb調試在哪09-10

優盤不顯示,小編告訴你優盤不顯示怎么辦09-10

低級格式化,小編告訴你硬盤怎么低級格式化09-10




帝國cms分類信息的所在地在的修改09-08

將網站地圖和友情鏈接table樣式改為div+css09-08

用帝國cms實現不規則新聞或信息調用（應大站09-08

帝國調用DZ論壇精華帖09-08

用靈動標簽調用discuz和phpwind的最新貼子09-08







熱門圖片
更多




芭蕾舞蹈表演，真實美到極致


下午茶時間，悠然自得的休憩




充斥這繁華奢靡氣息的城市迪拜風景圖片


從山間到田野再到大海美麗的自然風景圖片




肉食主義者的最愛美食烤肉圖片


夏日甜心草莓美食圖片




人逢知己千杯少，喝酒搞笑圖集


搞笑試卷，學生惡搞答題







猜你喜歡的新聞


榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

華為輪值董事長郭平：虛擬技術創造現實價值

第六屆世界互聯網大會開幕“to B”端成熱門

滴滴英文服務上線兩周年 用戶已超200萬

華為推出全球至快AI訓練集群Atlas900

馬斯克：特斯拉正組建中國技術團隊

10年后6G將問世 速度有望比5G快100倍

WeworkCEO稱已開始考慮未來職位 不排除放棄

谷歌軟件商店模式變革：推出5美元會員 可用數





猜你喜歡的關注


聊天室實現私聊(一)

聊天室實現私聊(二)

聊天室實現私聊(三)

聊天室實現私聊(四)

網頁在線人數統計的做法

ADO存取數據時如何實現留言記錄的分頁顯示

一個簡單聊天室的建立.(供學習參考)

構建你的網站新聞自動發布系統之一

構建你的網站新聞自動發布系統之二

構建你的網站新聞自動發布系統之三











新聞熱點





榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布
2019-10-23 09:17:05






搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵
2019-10-21 09:20:02






華為輪值董事長郭平：虛擬技術創造現實價值
2019-10-21 09:00:12






滴滴英文服務上線兩周年 用戶已超200萬
2019-09-26 08:57:12






華為推出全球至快AI訓練集群Atlas900
2019-09-25 08:46:36






馬斯克：特斯拉正組建中國技術團隊
2019-09-25 08:15:43











疑難解答




索泰發布一款GTX 1070 Mini迷你版本:小機箱

AMD新旗艦顯卡輕松干翻NVIDIA 有幾個點我們

i5 6500配什么顯卡最佳？i5 6500配1060顯卡可

AMD新一批顯卡曝光:更便宜的14nm北極星

A卡自修改BIOS安裝16.12.1 ReLive驅動教程 

2016筆記本顯卡性能哪個好？筆記本顯卡天梯圖

2016顯卡性能怎么看好壞 顯卡天梯圖2016年1

PS4 Pro顯卡解析:顯存帶寬相當于標準版PS4

iGame 1050烈焰戰神U-2GD5版圖賞版:最美非

EVGA FTW GTX 1080/1070顯卡存在嚴重問題:







圖片精選




使用ASP建設私人搜索引擎



華為短消息中心的發展與應用



移動通信計費及客戶服務系統



移動客戶服務中心系統











網友關注




u盤無法識別怎么辦,小編告訴你U盤無法識別怎

usb無線網卡怎么用,小編告訴你安裝教程

usb調試在哪,小編告訴你usb調試在哪

優盤不顯示,小編告訴你優盤不顯示怎么辦

低級格式化,小編告訴你硬盤怎么低級格式化

分區表丟失,小編告訴你分區表丟失如何修復

進入bios,小編告訴你戴爾筆記本進入bios設置u

怎么刷bios,小編告訴你華碩怎么刷bios

讀卡器怎么用,小編告訴你如何使用讀卡器

bios升級,小編告訴你華碩主板bios怎么升級

Java抽取Word，PDF格式文件的四種武器

Java抽取Word，PDF格式文件的四種武器