現(xiàn)在有越來越多的人熱衷于做網(wǎng)絡(luò)爬蟲(網(wǎng)絡(luò)蜘蛛),也有越來越多的地方需要網(wǎng)絡(luò)爬蟲,比如搜索引擎、資訊采集、輿情監(jiān)測(cè)等等,諸如此類。網(wǎng)絡(luò)爬蟲涉及到的技術(shù)(算法/策略)廣而復(fù)雜,如網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)跟蹤、網(wǎng)頁(yè)分析、網(wǎng)頁(yè)搜索、網(wǎng)頁(yè)評(píng)級(jí)和結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)抽取以及后期更細(xì)粒度的數(shù)據(jù)挖掘等方方面面,對(duì)于新手來說,不是一朝一夕便能完全掌握且熟練應(yīng)用的,對(duì)于作者來說,更無(wú)法在一篇文章內(nèi)就將其說清楚。因此在本篇文章中,我們僅將視線聚焦在網(wǎng)絡(luò)爬蟲的最基礎(chǔ)技術(shù)——網(wǎng)頁(yè)抓取方面。
說到網(wǎng)頁(yè)抓取,往往有兩個(gè)點(diǎn)是不得不說的,首先是網(wǎng)頁(yè)編碼的識(shí)別,另外一個(gè)是對(duì)網(wǎng)頁(yè)腳本運(yùn)行的支持,除此之外,是否支持以POST方式提交請(qǐng)求和支持自動(dòng)的cookie管理也是很多人所關(guān)注的重要方面。其實(shí)java世界里,已經(jīng)有很多開源的組件來支持各種各樣方式的網(wǎng)頁(yè)抓取了,包括上面提到的四個(gè)重點(diǎn),所以說使用Java做網(wǎng)頁(yè)抓取還是比較容易的。下面,作者將重點(diǎn)介紹其中的六種方式。
HttpClient
HttpClient 是 Apache Jakarta Common 下的子項(xiàng)目,可以用來提供高效的、最新的、功能豐富的支持 HTTP 協(xié)議的客戶端編程工具包,并且它支持 HTTP 協(xié)議最新的版本和建議。
以下列出的是 HttpClient 提供的主要的功能,要知道更多詳細(xì)的功能可以參見 HttpClient 的主頁(yè)。
(1)實(shí)現(xiàn)了所有 HTTP 的方法(GET,POST,PUT,HEAD 等)
(2)支持自動(dòng)轉(zhuǎn)向
(3)支持 HTTPS 協(xié)議
(4)支持代理服務(wù)器
(5)支持自動(dòng)的Cookies管理等
Java爬蟲開發(fā)中應(yīng)用最多的一種網(wǎng)頁(yè)獲取技術(shù),速度和性能一流,在功能支持方面顯得較為底層,不支持JS腳本執(zhí)行和CSS解析、渲染等準(zhǔn)瀏覽器功能,推薦用于需要快速獲取網(wǎng)頁(yè)而無(wú)需解析腳本和CSS的場(chǎng)景。
范例代碼如下:
package cn.ysh.studio.crawler.httpclient;import org.apache.http.client.HttpClient;import org.apache.http.client.ResponseHandler;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.BasicResponseHandler;import org.apache.http.impl.client.DefaultHttpClient;/** * 基于HtmlClient抓取網(wǎng)頁(yè)內(nèi)容 * * @author www.yshjava.cn */publicclassHttpClientTest{publicstaticvoid main(String[] args)throwsException{//目標(biāo)頁(yè)面String url ="http://www.yshjava.cn";//創(chuàng)建一個(gè)默認(rèn)的HttpClientHttpClient httpclient =newDefaultHttpClient();try{//以get方式請(qǐng)求網(wǎng)頁(yè)http://www.yshjava.cnHttpGet httpget =newHttpGet(url);//打印請(qǐng)求地址System.out.PRintln("executing request "+ httpget.getURI());//創(chuàng)建響應(yīng)處理器處理服務(wù)器響應(yīng)內(nèi)容ResponseHandlerresponseHandler=newBasicResponseHandler();//執(zhí)行請(qǐng)求并獲取結(jié)果String responseBody = httpclient.execute(httpget, responseHandler);System.out.println("----------------------------------------");System.out.println(responseBody);System.out.println("----------------------------------------");}finally{//關(guān)閉連接管理器 httpclient.getConnectionManager().shutdown();}}}
Jsoup
jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
網(wǎng)頁(yè)獲取和解析速度飛快,推薦使用。
主要功能如下:
1. 從一個(gè)URL,文件或字符串中解析HTML;
2. 使用DOM或CSS選擇器來查找、取出數(shù)據(jù);
3. 可操作HTML元素、屬性、文本;
范例代碼如下:
package cn.ysh.studio.crawler.jsoup;import java.io.IOException;import org.jsoup.Jsoup;/** * 基于Jsoup抓取網(wǎng)頁(yè)內(nèi)容 * @author www.yshjava.cn */publicclassJsoupTest{publicstaticvoid main(String[] args)throwsIOException{//目標(biāo)頁(yè)面String url ="http://www.yshjava.cn";//使用Jsoup連接目標(biāo)頁(yè)面,并執(zhí)行請(qǐng)求,獲取服務(wù)器響應(yīng)內(nèi)容String html =Jsoup.connect(url).execute().body();//打印頁(yè)面內(nèi)容System.out.println(html);}}
HtmlUnit
htmlunit 是一款開源的java 頁(yè)面分析工具,讀取頁(yè)面后,可以有效的使用htmlunit分析頁(yè)面上的內(nèi)容。項(xiàng)目可以模擬瀏覽器運(yùn)行,被譽(yù)為java瀏覽器的開源實(shí)現(xiàn)。這個(gè)沒有界面的瀏覽器,運(yùn)行速度也是非常迅速的。采用的是Rhinojs引擎。模擬js運(yùn)行。
網(wǎng)頁(yè)獲取和解析速度較快,性能較好,推薦用于需要解析網(wǎng)頁(yè)腳本的應(yīng)用場(chǎng)景。
范例代碼如下:
package cn.ysh.studio.crawler.htmlunit;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.Page;import com.gargoylesoftware.htmlunit.WebClient;/** * 基于HtmlUnit抓取網(wǎng)頁(yè)內(nèi)容 * * @author www.yshjava.cn */publicclassHtmlUnitSpider{publicstaticvoid main(String[] s)throwsException{//目標(biāo)網(wǎng)頁(yè)String url ="http://www.yshjava.cn";//模擬特定瀏覽器Firefox_3WebClient spider =newWebClient(BrowserVersion.FIREFOX_3);//獲取目標(biāo)網(wǎng)頁(yè)Page page = spider.getPage(url);//打印網(wǎng)頁(yè)內(nèi)容System.out.println(page.getWebResponse().getContentAsString());//關(guān)閉所有窗口 spider.closeAllWindows();}}
Watij(發(fā)音wattage)是一個(gè)使用Java開發(fā)的Web應(yīng)用程序測(cè)試工具,鑒于Watij的簡(jiǎn)單性和Java語(yǔ)言的強(qiáng)大能力,Watij能夠使您在真正的瀏覽器中完成Web應(yīng)用程序的自動(dòng)化測(cè)試。因?yàn)槭钦{(diào)用本地瀏覽器,因此支持CSS渲染和JS執(zhí)行。
網(wǎng)頁(yè)獲取速度一般,IE版本過低(6/7)時(shí)可能會(huì)引發(fā)內(nèi)存泄露。
范例代碼如下:
package cn.ysh.studio.crawler.ie;import watij.runtime.ie.IE;/** * 基于Watij抓取網(wǎng)頁(yè)內(nèi)容,僅限Windows平臺(tái) * * @author www.yshjava.cn */publicclassWatijTest{publicstaticvoid main(String[] s){//目標(biāo)頁(yè)面String url ="http://www.yshjava.cn";//實(shí)例化IE瀏覽器對(duì)象 IE ie =new IE();try{//啟動(dòng)瀏覽器 ie.start();//轉(zhuǎn)到目標(biāo)網(wǎng)頁(yè) ie.goTo(url);//等待網(wǎng)頁(yè)加載就緒 ie.waitUntilReady();//打印頁(yè)面內(nèi)容System.out.println(ie.html());}catch(Exception e){ e.printStackTrace();}finally{try{//關(guān)閉IE瀏覽器 ie.close();}catch(Exception e){}}}}
Selenium
Selenium也是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括IE、Mozilla Firefox、Mozilla Suite等。這個(gè)工具的主要功能包括:測(cè)試與瀏覽器的兼容性——測(cè)試你的應(yīng)用程序看是否能夠很好得工作在不同瀏覽器和操作系統(tǒng)之上。測(cè)試系統(tǒng)功能——?jiǎng)?chuàng)建衰退測(cè)試檢驗(yàn)軟件功能和用戶需求。支持自動(dòng)錄制動(dòng)作和自動(dòng)生成。Net、Java、Perl等不同語(yǔ)言的測(cè)試腳本。Selenium 是ThoughtWorks專門為Web應(yīng)用程序編寫的一個(gè)驗(yàn)收測(cè)試工具。
網(wǎng)頁(yè)獲取速度較慢,對(duì)于爬蟲來說,不是一個(gè)好的選擇。
范例代碼如下:
package cn.ysh.studio.crawler.selenium;import org.openqa.selenium.htmlunit.HtmlUnitDriver;/** * 基于HtmlDriver抓取網(wǎng)頁(yè)內(nèi)容 * * @author www.yshjava.cn */publicclassHtmlDriverTest{publicstaticvoid main(String[] s){//目標(biāo)網(wǎng)頁(yè)String url ="http://www.yshjava.cn";HtmlUnitDriver driver =newHtmlUnitDriver();try{//禁用JS腳本功能 driver.setJavascriptEnabled(false);//打開目標(biāo)網(wǎng)頁(yè) driver.get(url);//獲取當(dāng)前網(wǎng)頁(yè)源碼String html = driver.getPageSource();//打印網(wǎng)頁(yè)源碼System.out.println(html);}catch(Exception e){//打印堆棧信息 e.printStackTrace();}finally{try{//關(guān)閉并退出 driver.close(); driver.quit();}catch(Exception e){}}}}
Webspec
一個(gè)開源的帶有界面的Java瀏覽器,支持腳本執(zhí)行和CSS渲染。速度一般。
范例代碼如下:
package cn.ysh.studio.crawler.webspec;import org.watij.webspec.dsl.WebSpec;/** * 基于WebSpec抓取網(wǎng)頁(yè)內(nèi)容 * * @author www.yshjava.cn */publicclassWebspecTest{publicstaticvoid main(String[] s){//目標(biāo)網(wǎng)頁(yè)String url ="http://www.yshjava.cn";//實(shí)例化瀏覽器對(duì)象WebSpec spec =newWebSpec().mozilla();//隱藏瀏覽器窗體 spec.hide();//打開目標(biāo)頁(yè)面 spec.open(url);//打印網(wǎng)頁(yè)源碼System.out.println(spec.source());//關(guān)閉所有窗口 spec.closeAll();}}
源碼下載:網(wǎng)絡(luò)爬蟲(網(wǎng)絡(luò)蜘蛛)之網(wǎng)頁(yè)抓取范例源碼
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注