亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 開發 > JS > 正文

node.js 基于cheerio的爬蟲工具的實現(需要登錄權限的爬蟲工具)

2024-05-06 16:49:48
字體:
來源:轉載
供稿:網友

公司有過一個需求,需要拿一個網頁的的表格數據,數據量達到30w左右;為了提高工作效率。

結合自身經驗和網上資料。寫了一套符合自己需求的nodejs爬蟲工具。也許也會適合你的。

先上代碼。在做講解

'use strict';// 引入模塊const superagent = require('superagent');const cheerio = require('cheerio');const Excel = require('exceljs');var baseUrl = '';var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookielet pageDatas = [];let count = 1;let limit = 3;for (count; count < limit; count++) {   baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;  loadPage(baseUrl); }function loadPage(baseUrl) {    getPageLoad(baseUrl);} async function getPageLoad(baseUrl) {  try {    let body = await superagent.get(baseUrl)      .set("Cookie", Cookies)    var $ = cheerio.load(body.text);    var trList = $("#tableList").children("tr");        for (var i = 0; i < trList.length; i++) {         let item = {};        var tdArr = trList.eq(i).find("td");        var id = tdArr.eq(0).text();        item.sortId = id;        var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;        item.policyId = tdArr.eq(1).text();        item.policyProductName = tdArr.eq(2).text();        item.policyName = tdArr.eq(3).text();        item.policyMoney = tdArr.eq(4).text();        let detailBody = await superagent.get(detailUrl)          .set("Cookie", Cookies);        var $$ = cheerio.load(detailBody.text);        var detailT = $$(".table-view");             //投保人證件號        item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();        //投保人手機號        item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();        //被保人手機號        item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();              //被保人姓名        item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();        console.log(item.bePoliciedName)        //被保人證件號        item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();        pageDatas = [...pageDatas,item];      }    if (pageDatas.length / 15 == (count - 1)) {       writeXLS(pageDatas)    }  } catch (error) {  }}function writeXLS(pageDatas) {  const workbook = new Excel.Workbook();  const sheet = workbook.addWorksheet('My Sheet');  const reColumns=[    {header:'序號',key:'sortId'},    {header:'投保單號',key:'policyId'},    {header: '產品名稱', key: 'policyProductName'},    {header: '投保人姓名', key: 'policyName' },    {header: '投保人手機號', key: 'policyPhone' },    {header: '投保人證件號', key: 'policyIdNum'},    {header: '被保人姓名', key: 'bePoliciedName' },    {header: '被保人手機號', key: 'bePoliciedPhone' },    {header: '被保人證件號', key: 'bePoliciedIdNum' },    {header:'保費',key:'policyMoney'},  ];  sheet.columns = reColumns;  for(let trData of pageDatas){    sheet.addRow(trData);  }  const filename = './projects.xlsx';  workbook.xlsx.writeFile(filename)  .then(function() {   console.log('ok');  }).catch(function (error) {      console.error(error);   }); }

代碼使用方式

一、npm install 相關的依賴二、代碼修改

1、修改為自己的baseUrl

2、如果不需要攜帶cookie時將set("Cookie", Cookies)代碼去掉

3、修改自己的業務代碼

三、運行 node index四、部分代碼說明

所有代碼不過90行不到,操作了表格數據獲取和單條數據詳情的獲取

node.js,cheerio,爬蟲工具

接口請求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡單。因為有的時候我們需要獲取登錄后的頁面數據。

這個時候可能需要請求是攜帶登錄cookie信息。返回后的body對象通過cheerio.load之后就能拿到一個類似jquery的文檔對象。

后面就可以很方便的使用jquery的dom操作方式去拿到頁面內自己想要的數據了。

node.js,cheerio,爬蟲工具

數據寫入到excel中。

五、結果

node.js,cheerio,爬蟲工具

 

node.js,cheerio,爬蟲工具

總結


注:相關教程知識閱讀請移步到JavaScript/Ajax教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美日韩午夜视频在线观看| 欧美亚洲成人网| 国产精品久久久久福利| 亚洲精品永久免费精品| 国产精品伦子伦免费视频| 久久欧美在线电影| 日韩精品中文字幕在线| 久久频这里精品99香蕉| 日韩av免费网站| 成人久久久久久久| 久久久久久久91| 黄色精品在线看| 日韩精品中文字幕在线观看| 亚洲电影在线观看| 久久久精品网站| 国产91精品在线播放| 亚洲精品v天堂中文字幕| 久久99热这里只有精品国产| 国产精品久久久久久av下载红粉| 欧美大胆a视频| 国产91色在线|免| 欧美有码在线观看| 高跟丝袜欧美一区| 精品国偷自产在线| 疯狂做受xxxx欧美肥白少妇| 91精品国产色综合久久不卡98口| 亚洲国产女人aaa毛片在线| 亚洲精品久久久久久久久久久| 成人av资源在线播放| 日本一区二三区好的精华液| 在线亚洲国产精品网| 精品国产31久久久久久| 成人国产在线激情| 在线观看免费高清视频97| 97国产成人精品视频| 在线播放国产一区中文字幕剧情欧美| 欧美激情第1页| 国产精品亚洲一区二区三区| 日韩欧美在线视频观看| 中文字幕日韩av| 伊人久久精品视频| 亚洲欧美变态国产另类| 91精品国产色综合久久不卡98口| 国产狼人综合免费视频| 欧美日韩高清区| 国产一区私人高清影院| 欧美性精品220| 欧美日韩国产91| 亚洲第一区第一页| 免费91在线视频| xvideos亚洲| 欧美精品在线免费观看| 欧美麻豆久久久久久中文| 亚洲福利视频二区| 俺去了亚洲欧美日韩| 国产精品美女免费看| 日韩欧美成人网| 欧美国产日本高清在线| 久久九九国产精品怡红院| 色噜噜狠狠狠综合曰曰曰88av| 成人黄色生活片| 久久精品久久精品亚洲人| 成人在线激情视频| 亚洲欧洲第一视频| 青草青草久热精品视频在线观看| 欧美午夜片欧美片在线观看| 久久中文久久字幕| 日韩视频在线一区| 国产精品久久久久久久9999| 欧美日韩成人在线视频| 夜夜躁日日躁狠狠久久88av| 久久久视频精品| 欧美精品免费在线观看| 欧美另类极品videosbestfree| 成人精品aaaa网站| 丰满岳妇乱一区二区三区| 久久久久久久久久婷婷| 午夜美女久久久久爽久久| 国产亚洲免费的视频看| 在线精品高清中文字幕| 国产成人精品网站| 91精品91久久久久久| 国产精品看片资源| 亚洲在线视频观看| 国产精品久久久久久久久借妻| 欧美不卡视频一区发布| 7m精品福利视频导航| 国产成人精品在线视频| 亚洲第一中文字幕在线观看| 欧美中文字幕在线观看| 久久99久久99精品免观看粉嫩| 久久亚洲精品一区二区| 亚洲欧美中文另类| 国产精品成久久久久三级| 久久久久久久久久久人体| 中文字幕日韩精品有码视频| 欧美高清videos高潮hd| 国产精品成人久久久久| 久久免费国产视频| 一区二区三区四区视频| www国产精品视频| 日韩欧美国产免费播放| 成人网址在线观看| 亚洲精品中文字幕有码专区| 亚洲 日韩 国产第一| 日本国产一区二区三区| 国产美女搞久久| 亚洲日韩中文字幕在线播放| 欧美日韩激情视频8区| 一区二区欧美亚洲| 91精品国产99| 国产一区二区三区在线免费观看| 精品一区二区亚洲| 7777精品久久久久久| 欧洲亚洲妇女av| 欧美视频在线免费| 久久在线免费观看视频| 欧美一二三视频| 欧美国产日产韩国视频| 国产精品偷伦一区二区| 91国在线精品国内播放| 久久久精品欧美| 国产精品久久久久久久久久新婚| 精品久久久91| 国产做受高潮69| 欧美中文在线观看国产| 亚洲区在线播放| 亚洲区在线播放| 亚洲成人性视频| 中文字幕亚洲图片| 欧美激情一区二区三区成人| 国产亚洲视频中文字幕视频| 亚洲精品ady| 久久久999国产| 亚洲黄一区二区| 超碰97人人做人人爱少妇| 欧美性生活大片免费观看网址| 亚洲国产精品字幕| 亚洲午夜激情免费视频| 影音先锋欧美精品| 欧美肥婆姓交大片| 国产精品一区二区久久| 国产日韩欧美中文| 欧美国产极速在线| 色哟哟网站入口亚洲精品| 亚洲激情视频在线观看| 欧美激情视频一区二区三区不卡| 激情久久av一区av二区av三区| 国产日本欧美一区二区三区在线| 国产精品久久久久久久久免费| 日韩av资源在线播放| 国产一区二区三区毛片| 亚洲最大的网站| 精品亚洲一区二区三区在线播放| 久久久国产一区二区三区| 亚洲福利在线看| 久久精品色欧美aⅴ一区二区| 国产日韩欧美一二三区| 欧美风情在线观看| 国产在线视频一区| 91理论片午午论夜理片久久| 久久免费观看视频| 日韩欧美国产视频| 一区二区三区www|