亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

htmlparse的簡單使用--------爬取電影網頁的全部下載鏈接

2019-11-10 18:42:30
字體:
來源:轉載
供稿:網友

1前期準備,下載htmlparse壓縮包并配置到eclipse上,到下面網址可以下載

http://htmlparser.sourceforge.net/ 1 7 2 3 4 現在我們就可以導入和使用htmlparser了 2.網頁的分析與根據網頁源碼使用htmlparse

1、這里先分析與獲取一個電影介紹頁面的內容

5 現在我們來查看網頁源代碼 6

好、我們現在先來獲取一個頁面的下載鏈接

/** * 獲取一個頁面的下載鏈接 */ public static String getMoiveDownloadUrl(String moiveIntroUrl) { //頁面下載連接保存在這里 String moiveDownLoadUrl = ""; try { //首先根據頁面URL建立一個Parser. Parser parser = new Parser(moiveIntroUrl);//使用parser中extractAllNodesThatMatch方法,這個有許多的過濾器,可以幫助我們過濾出我們想要的內容,具體可以看api的介紹//這里我們使用鏈接文本過濾器,可以過濾出鏈接里面含ftp的內容,這樣就可以取出我們想要的鏈接 NodeList nodelist = parser.extractAllNodesThatMatch(new LinkStringFilter("ftp")); for (int i = 0; i < nodelist.size(); i++) { LinkTag tag = (LinkTag) nodelist.elementAt(i); moiveDownLoadUrl = tag.getLink(); } } catch (ParserException e) { e.PRintStackTrace(); } return moiveDownLoadUrl; }2、獲取一個分頁里的所有電影介紹頁面 8 9/** * 獲取一個分頁里的所有電影介紹頁面 */ public static List getAllMoiveUrlFromOneList(String pageListUrl) {//將鏈接地址以集合的形式返回出去 List<String> allMoiveUrl = new ArrayList<String>(); try { Parser parser = new Parser(pageListUrl);//這里我們使用屬性過濾器,可以幫助我們過濾一些屬性特殊或者屬性里面值唯一的標簽 NodeList nodelist = parser.extractAllNodesThatMatch(new HasAttributeFilter("class", "ulink")); for (int i = 0; i < nodelist.size(); i++) { LinkTag tag = (LinkTag) nodelist.elementAt(i);//將取出的分頁鏈接拼接一下,放入到集合中來。 allMoiveUrl.add("http://www.ygdy8.net" + tag.getLink()); } } catch (ParserException e) { e.printStackTrace(); } return allMoiveUrl; }3、獲取電影網里面的所有分頁 10 11/** * 獲取電影網里面的所有的分頁 */ public static List getAllPage() {//將鏈接地址以集合的形式返回出去 List<String> allPage = new ArrayList<String>(); try { Parser parser = new Parser("http://www.ygdy8.net/html/gndy/dyzz/index.html"); NodeList nodelist = parser.extractAllNodesThatMatch(new TagNameFilter("option")) .extractAllNodesThatMatch(new HasAttributeFilter("value")); for (int i = 0; i < nodelist.size(); i++) { OptionTag tag = (OptionTag) nodelist.elementAt(i); if(tag.getAttribute("value").contains("list")){ allPage.add("http://www.ygdy8.net/html/gndy/dyzz/" + tag.getAttribute("value")); } } } catch (ParserException e) { e.printStackTrace(); } return allPage; }

我們到現在就可以得到全部分頁的鏈接,各個電影介紹頁面的鏈接,介紹頁面里的下載鏈接。接下來我們要做的就是將這三個方法整合起來,獲得全部電影的下載鏈接

/** * 功能:保存數據到文件中 * * @param content * 要保存的內容 * @param fileName * 目標文件名(路徑) */ public static boolean writeContentToFileTwo(String content, String fileName) { boolean flag = false; try { PrintWriter pw = new PrintWriter(new OutputStreamWriter(new FileOutputStream(fileName,true))); pw.println(); pw.print(content); pw.flush(); pw.close(); flag = true; } catch (FileNotFoundException e) { e.printStackTrace(); flag = false; } return flag; }public static List getAllMoive() { List<String> movieList = new ArrayList<String>(); // 得到全部的分頁鏈接 List<String> allPage = getAllPage(); for (Iterator iterator = allPage.iterator(); iterator.hasNext();) { String pageListUrl = (String) iterator.next(); List<String> allMoiveUrl = getAllMoiveUrlFromOneList(pageListUrl); for (Iterator iterator2 = allMoiveUrl.iterator(); iterator2.hasNext();) { String moiveIntroUrl = (String) iterator2.next(); String moiveDownLoadUrl = getMoiveDownloadUrl(moiveIntroUrl); writeContentToFileTwo(moiveDownLoadUrl,"a.txt"); movieList.add(moiveDownLoadUrl); } } return movieList ; } public static void main(String[] args) { getAllMoive(); }

效果截圖 12

3.分析與總結

其實這個工具的使用是不復雜的,流程也很清晰,問題的關鍵在于如何在一個龐大的html頁面中獲取你想要的內容,可以多一點查看各種的節點過濾器,它可以幫助我們選出我們想要的內容,每次在爬取網頁之前我們都要花大量時間去分析一個網頁,找到我們想要的內容,不能多也不能少,這我覺得才是爬蟲的使用的重點


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久久久久这里只有精品| 国产成人福利网站| 国产成人一区二区在线| 色婷婷亚洲mv天堂mv在影片| 另类少妇人与禽zozz0性伦| 国产精品美乳一区二区免费| 57pao国产成人免费| 日韩中文字幕国产| 久久成人精品一区二区三区| 美女久久久久久久| 91精品视频一区| 亚洲毛片在线观看.| 亚洲欧美中文在线视频| 久久在线精品视频| 亚洲天堂视频在线观看| 久久综合电影一区| 国产精品成熟老女人| 精品国产乱码久久久久久婷婷| 97人人爽人人喊人人模波多| 国产精品自产拍在线观看| 国产免费观看久久黄| 色99之美女主播在线视频| 亚洲欧美制服综合另类| 欧美日韩国产精品专区| 久久五月天综合| 亚洲视频在线视频| 一本色道久久综合亚洲精品小说| 国产欧美日韩精品专区| 亚洲香蕉在线观看| 91最新在线免费观看| 亚洲激情视频网| 高清欧美性猛交xxxx黑人猛交| 久久人人97超碰精品888| 欧美成人免费全部| 欧美性猛交xxxx乱大交蜜桃| 国产一区二区成人| 韩国视频理论视频久久| 国产精自产拍久久久久久| 亚洲伊人一本大道中文字幕| 成人激情视频免费在线| 欧美视频二区36p| 国产成人精品免高潮在线观看| 国产成人拍精品视频午夜网站| 亚洲免费精彩视频| 亚洲黄在线观看| 欧美在线激情网| 欧美一区二区三区四区在线| 成人a视频在线观看| 亚洲丝袜在线视频| 欧美日韩成人在线观看| 美女啪啪无遮挡免费久久网站| 欧美区在线播放| 久久精品视频导航| 俺也去精品视频在线观看| 精品国产依人香蕉在线精品| 日本精品久久久久影院| 亚洲国产精彩中文乱码av| 久久久精品一区二区三区| 久青草国产97香蕉在线视频| 国产精品一区二区三区成人| 91亚洲精品在线观看| 中文字幕日本欧美| 欧美电影免费观看网站| 亚洲国产一区二区三区四区| 亚洲japanese制服美女| 国产做受高潮69| 91sao在线观看国产| 国产精品久久色| 日韩精品视频在线免费观看| 亚洲第一av网站| 秋霞午夜一区二区| 色老头一区二区三区| 亚洲人免费视频| 国产在线精品一区免费香蕉| 久久伊人精品一区二区三区| 亚洲精品一区二区三区婷婷月| 久久综合电影一区| 欧美男插女视频| 欧美性猛交xxxx富婆| 成人网址在线观看| 久久久久久久久久久免费精品| 欧美高跟鞋交xxxxxhd| 亚洲最大av网站| 国产精品xxx视频| 欧美一区三区三区高中清蜜桃| 亚洲国语精品自产拍在线观看| 日韩经典中文字幕在线观看| 7m第一福利500精品视频| 欧洲精品毛片网站| 国产精自产拍久久久久久蜜| 亚洲97在线观看| 九九精品视频在线观看| 久久国产精品久久久| 国产精品视频26uuu| 亚洲免费人成在线视频观看| 亚洲xxxxx| 国产精品视频永久免费播放| 亚洲天堂免费在线| 91免费在线视频网站| 欧美成人激情视频免费观看| 午夜美女久久久久爽久久| 91免费人成网站在线观看18| 成人啪啪免费看| 亚洲日本成人女熟在线观看| 精品久久久久人成| 亚洲a一级视频| 日韩精品免费观看| 日韩中文字幕国产精品| 亚洲精品久久久久国产| 一区二区三区国产在线观看| 91性高湖久久久久久久久_久久99| 国产精品第一视频| 日本韩国在线不卡| 国产欧美最新羞羞视频在线观看| 精品久久久久久久久久| 91精品视频观看| 日韩av免费在线看| 在线国产精品视频| 国产在线观看一区二区三区| 亚洲一区二区在线| 亚洲一区国产精品| 狠狠色噜噜狠狠狠狠97| 精品亚洲va在线va天堂资源站| 免费av一区二区| 亚洲自拍欧美色图| 亚洲国产婷婷香蕉久久久久久| 亚洲一区二区三区在线免费观看| 久久国产精品影片| 亚洲精品午夜精品| 自拍偷拍亚洲区| 这里只有精品在线播放| 全亚洲最色的网站在线观看| 亚洲男人天堂2024| 国产婷婷97碰碰久久人人蜜臀| 亚洲欧美一区二区三区四区| 国产视频精品va久久久久久| 色综合久久久久久中文网| 国产自摸综合网| 欧美激情按摩在线| 成人在线免费观看视视频| 日韩欧美在线视频日韩欧美在线视频| 91高清免费在线观看| 久久久亚洲精品视频| 久久91亚洲精品中文字幕| 国产精品久久久91| 成人亲热视频网站| 亚洲国产精品va在线看黑人动漫| 精品呦交小u女在线| 欧美黄色免费网站| 亚洲精品视频在线播放| 亚洲美女www午夜| 久久久久久噜噜噜久久久精品| 91产国在线观看动作片喷水| 日韩黄色在线免费观看| 久久精品国产69国产精品亚洲| 国产精品1234| 中国日韩欧美久久久久久久久| 91社区国产高清| 国产一区二区三区日韩欧美| 92福利视频午夜1000合集在线观看| 欧美激情精品久久久久久| 久久精品久久久久电影| 日韩成人激情在线| 国产日韩综合一区二区性色av|