亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 開發 > JS > 正文

Node爬取大批量文件的方法示例

2024-05-06 16:52:54
字體:
來源:轉載
供稿:網友

有個朋友在搞留學工作室,經常訪問的一個網站叫留學者指南,然而每次都要去訪問該網站,顯得極其不專業。于是托俺幫忙寫腳本去爬他家的東西,我觀察了下,這次,我們要爬的東西就有點多了——大概就20多萬個文件吧~~~

在20多萬個文件中,下載極有可能會被中斷,因此需要做下載進度備份,下載進度恢復。

那么針對這樣子的需求,我們開始吧!

上代碼!

const cheerio = require("cheerio"); //用于處于HTML文檔流,用法類似jQueryconst http = require("http"); //用于發起請求const fs = require("fs"); //用于檢測、寫入文件等其他文件操作// "http://www.compassedu.hk/sitemap1.txt",// "http://www.compassedu.hk/sitemap2.txt", //重復的鏈接var source = [ //Robots.txt顯示的數據源  "http://m.compassedu.hk/sitemap3.txt",  "http://m.compassedu.hk/sitemap4.txt",  "http://m.compassedu.hk/sitemap6.txt",  "http://m.compassedu.hk/sitemap7.txt",  "http://m.compassedu.hk/sitemap8.txt"]var s = 0; //控制源的序號var arr = []; //合并的下載地址數組var sou = []; //源下載地址數組var i = 0; //當前下載地址數組序號fs.exists(__dirname+"/compassedu", function(flag){ //下載路徑檢測  if(!flag) fs.mkdirSync(__dirname+"/compassedu"); //創建下載存放目錄})fs.exists(__dirname+"/logs", function(flag){ //日志路徑檢測  if(!flag) fs.mkdirSync(__dirname+"/logs"); //創建日志存放目錄})if(fs.existsSync(__dirname+"/logs/compassedu_backup")){ //是否存在斷連恢復下載的控制文檔  let obj = JSON.parse(fs.readFileSync(__dirname+"/logs/compassedu_backup")); //存在則讀取上次下載的位置  i = obj.index;  init(); //開始初始化程序}else{  init(); //開始初始化程序}function init(){ //初始化  http.get(source[s], function(res){ //獲取源下載地址文件    //將源文件的內容存儲到數組    let rawData = "";    res.setEncoding("utf8");    res.on("data", function(chunk){ //監聽數據流      rawData += chunk;    });    res.on("end", function(){ //監聽結束      sou[s] = rawData.split("/n");      console.log("源", s+1, ": ", sou[s].length, "條數據");      s++;      if(s<source.length){ //源文件還未讀取完        init();      }      else{ //源文件讀取完畢        for(let m=0;m<sou.length;m++){ //將所有的地址數組合并          arr = arr.concat(sou[m]);        }        arr = [...new Set(arr)]; //去重        console.log("總計: ", arr.length, "條數據", "/n爬蟲配置完畢!!/n開始爬取 >>");        start(); //開始爬取程序      }    });  })}function start(){ //開始  let url = arr[i];  console.log(url); //打印當前爬取的URL    http.get(url,function(res){ //發起請求    let obj = { //將當前的信息存儲到對象中     "time": new Date().toLocaleTimeString(),      "index": i,      "url": url,      "status": res.statusCode    };    fs.appendFileSync("./logs/download.log", JSON.stringify(obj), "utf8"); //寫入日志文件    fs.writeFileSync("./logs/compassedu_backup", JSON.stringify({"index": i}), "utf8"); //將當前的下載URL序號寫入斷連恢復文件    //讀取請求到的數據流    let rawData = "";    res.setEncoding("utf8");    res.on("data", function(chunk){ //監聽數據流事件      rawData += chunk;    });    res.on("end", function(){ //監聽結束事件      $ = cheerio.load(rawData); //啟用類jQuery插件      body = $(".container-public").html(); //讀取數據流部分的內容      body = body.split("visible-xs")[0]; //剝離多于的數據或其他處理,準備寫入文件      i++; //序號+1      fs.writeFile(__dirname+"/compassedu/"+title+".html", body, "utf8", function(err){ //將處理好的數據寫入文件        if(!err) console.log(title, "寫入成功");        else{          console.log(err);        }      });      if(i>=arr.length) { //若序號達到數組的最后,結束程序        console.log("爬取結束");        fs.unlinkSync("./logs/compassedu_backup");//爬取結束,銷毀斷連恢復文件        return;      }      else { //否則遞歸運行        start();      }    });    res.on("error", function(err){ //監聽其他錯誤      console.log(err);    });  })}

至此,就結束了,是否有bug還不清楚,數據還沒爬完呢~

有bug的話,我后續補充修復~

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持VeVb武林網。


注:相關教程知識閱讀請移步到JavaScript/Ajax教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
日韩av网站导航| 岛国精品视频在线播放| 疯狂做受xxxx高潮欧美日本| 国产日韩精品入口| 裸体女人亚洲精品一区| 日韩电视剧免费观看网站| 91av福利视频| 美乳少妇欧美精品| 欧美在线xxx| 成人黄色免费在线观看| 久久久精品久久久久| 国产精品男女猛烈高潮激情| 精品久久久免费| 国产成人精品综合久久久| 亚洲精品免费网站| 亚洲毛片在线观看.| 国产美女搞久久| 2019中文字幕免费视频| 国产精品主播视频| 成人免费观看网址| 亚洲免费影视第一页| 国产精品一区久久久| 亚洲国产精品va在线看黑人| 精品动漫一区二区三区| 精品久久久久久久久久久久久久| 日韩电影免费观看在线观看| 亚洲日韩欧美视频| 欧美精品久久久久久久免费观看| 欧美黄色性视频| 国产在线视频2019最新视频| 性色av香蕉一区二区| 久久久久在线观看| 九九精品在线观看| 国产精品欧美日韩一区二区| 97高清免费视频| 国产91色在线|免| 国产精品美腿一区在线看| 97超级碰碰碰久久久| 欧美福利视频在线观看| 日韩在线免费高清视频| 8090成年在线看片午夜| 国产亚洲精品激情久久| 26uuu亚洲国产精品| 美女视频黄免费的亚洲男人天堂| 欧美日韩福利在线观看| 91国产精品91| 成人日韩在线电影| 91在线视频一区| 中文国产成人精品久久一| 亚洲成人网在线观看| 激情成人在线视频| 性欧美暴力猛交69hd| 久久久国产精品一区| 国产www精品| 国产成人精品网站| 欧美激情第一页xxx| 韩国国内大量揄拍精品视频| 成人网页在线免费观看| 国产在线一区二区三区| www日韩欧美| 亚洲一区二区三区香蕉| 亚洲乱码国产乱码精品精| xvideos国产精品| 91美女福利视频高清| 国产精欧美一区二区三区| 国产丝袜一区二区三区免费视频| 欧美另类暴力丝袜| 亚洲天堂av在线播放| 欧美精品videofree1080p| 日韩av在线高清| 国产亚洲欧洲在线| 亚洲国产精品va在线观看黑人| 亚洲成人av中文字幕| 色哟哟入口国产精品| 日韩网站免费观看高清| 国产91精品网站| 992tv成人免费视频| 亚洲精品美女网站| 午夜精品在线视频| 在线看欧美日韩| 日韩欧美在线免费观看| 97精品国产97久久久久久春色| 国产97在线|日韩| 亚洲精品美女久久久久| 国产精品精品国产| 久久99精品视频一区97| 久久综合伊人77777尤物| 日本精品视频在线播放| 亚洲精品视频在线观看视频| 国产欧美精品一区二区三区介绍| 亚洲天堂久久av| 国产69久久精品成人看| 国产精品丝袜高跟| 日韩欧美高清在线视频| 欧美高清视频一区二区| 欧美性视频精品| 欧美精品videosex极品1| 亚洲欧洲一区二区三区在线观看| 亚洲少妇激情视频| 永久免费毛片在线播放不卡| 欧美性xxxx在线播放| 国产区精品视频| 国产精品一二三视频| 国产精品美女主播在线观看纯欲| 在线视频日韩精品| 热久久99这里有精品| 亚洲成人免费在线视频| 91久久久在线| 国产精品日日做人人爱| 久久久免费在线观看| 亚洲国产毛片完整版| 精品国产乱码久久久久久天美| 国产精品扒开腿做爽爽爽男男| y97精品国产97久久久久久| 亚洲视频视频在线| 欧美在线一级va免费观看| 国产999精品| 一区二区国产精品视频| 亚洲色图综合网| 国外色69视频在线观看| 日韩在线激情视频| 国产精品96久久久久久又黄又硬| 91国产视频在线| 亚洲精品久久久久国产| 成人久久一区二区| 中文字幕一区二区三区电影| 亚洲美女性生活视频| 在线日韩av观看| 国产精品高潮呻吟久久av黑人| 日韩美女免费观看| 性色av一区二区咪爱| 欧美日韩中文在线| 亚洲一区二区三区视频| 日韩中文字幕国产| 91精品在线观看视频| 亚洲小视频在线| 狠狠躁夜夜躁久久躁别揉| 欧美多人爱爱视频网站| 精品视频9999| 国产一级揄自揄精品视频| 国产精品久久久久久久久久新婚| 成人在线视频网| 国产精品九九九| 亚洲精品之草原avav久久| 欧美午夜视频在线观看| 成人性教育视频在线观看| 一区二区三区日韩在线| 国产精品99蜜臀久久不卡二区| 91chinesevideo永久地址| 日韩国产高清视频在线| 国内精品美女av在线播放| 在线看日韩欧美| 久久人人97超碰精品888| 欧美另类暴力丝袜| 亚洲曰本av电影| 久久久伊人日本| 96pao国产成视频永久免费| 另类天堂视频在线观看| 国产成人av在线| 国产成人啪精品视频免费网| 日韩成人中文字幕| 国产亚洲欧洲在线| 日韩小视频在线| 日韩风俗一区 二区|