亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

node.js 基于cheerio的爬蟲工具的實現(需要登錄權限的爬蟲工具)

2019-11-19 11:49:14
字體:
來源:轉載
供稿:網友

公司有過一個需求,需要拿一個網頁的的表格數據,數據量達到30w左右;為了提高工作效率。

結合自身經驗和網上資料。寫了一套符合自己需求的nodejs爬蟲工具。也許也會適合你的。

先上代碼。在做講解

'use strict';// 引入模塊const superagent = require('superagent');const cheerio = require('cheerio');const Excel = require('exceljs');var baseUrl = '';var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookielet pageDatas = [];let count = 1;let limit = 3;for (count; count < limit; count++) {   baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;  loadPage(baseUrl); }function loadPage(baseUrl) {    getPageLoad(baseUrl);} async function getPageLoad(baseUrl) {  try {    let body = await superagent.get(baseUrl)      .set("Cookie", Cookies)    var $ = cheerio.load(body.text);    var trList = $("#tableList").children("tr");        for (var i = 0; i < trList.length; i++) {         let item = {};        var tdArr = trList.eq(i).find("td");        var id = tdArr.eq(0).text();        item.sortId = id;        var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;        item.policyId = tdArr.eq(1).text();        item.policyProductName = tdArr.eq(2).text();        item.policyName = tdArr.eq(3).text();        item.policyMoney = tdArr.eq(4).text();        let detailBody = await superagent.get(detailUrl)          .set("Cookie", Cookies);        var $$ = cheerio.load(detailBody.text);        var detailT = $$(".table-view");             //投保人證件號        item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();        //投保人手機號        item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();        //被保人手機號        item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();              //被保人姓名        item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();        console.log(item.bePoliciedName)        //被保人證件號        item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();        pageDatas = [...pageDatas,item];      }    if (pageDatas.length / 15 == (count - 1)) {       writeXLS(pageDatas)    }  } catch (error) {  }}function writeXLS(pageDatas) {  const workbook = new Excel.Workbook();  const sheet = workbook.addWorksheet('My Sheet');  const reColumns=[    {header:'序號',key:'sortId'},    {header:'投保單號',key:'policyId'},    {header: '產品名稱', key: 'policyProductName'},    {header: '投保人姓名', key: 'policyName' },    {header: '投保人手機號', key: 'policyPhone' },    {header: '投保人證件號', key: 'policyIdNum'},    {header: '被保人姓名', key: 'bePoliciedName' },    {header: '被保人手機號', key: 'bePoliciedPhone' },    {header: '被保人證件號', key: 'bePoliciedIdNum' },    {header:'保費',key:'policyMoney'},  ];  sheet.columns = reColumns;  for(let trData of pageDatas){    sheet.addRow(trData);  }  const filename = './projects.xlsx';  workbook.xlsx.writeFile(filename)  .then(function() {   console.log('ok');  }).catch(function (error) {      console.error(error);   }); }

代碼使用方式

一、npm install 相關的依賴二、代碼修改

1、修改為自己的baseUrl

2、如果不需要攜帶cookie時將set("Cookie", Cookies)代碼去掉

3、修改自己的業務代碼

三、運行 node index四、部分代碼說明

所有代碼不過90行不到,操作了表格數據獲取和單條數據詳情的獲取

接口請求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡單。因為有的時候我們需要獲取登錄后的頁面數據。

這個時候可能需要請求是攜帶登錄cookie信息。返回后的body對象通過cheerio.load之后就能拿到一個類似jquery的文檔對象。

后面就可以很方便的使用jquery的dom操作方式去拿到頁面內自己想要的數據了。

數據寫入到excel中。

五、結果

總結

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久久久国产精品www| 欧美精品情趣视频| 色偷偷91综合久久噜噜| 久久久久久久999| 午夜精品久久久久久久男人的天堂| 久久99国产综合精品女同| 日韩在线精品视频| 黄色一区二区在线观看| 日韩女优人人人人射在线视频| 91久久久久久久| 日韩欧美中文字幕在线播放| 18一19gay欧美视频网站| 久久精品人人做人人爽| 日本精品免费观看| 国产成人精品在线| 久久成人一区二区| 亚洲偷欧美偷国内偷| 欧美区二区三区| 久久久精品一区二区三区| 国产在线精品成人一区二区三区| 在线视频欧美性高潮| 青青草精品毛片| 亚洲综合在线中文字幕| 欧美精品日韩www.p站| 国产精品香蕉国产| 色偷偷亚洲男人天堂| 国产成+人+综合+亚洲欧洲| 日韩电视剧在线观看免费网站| 久久精品人人做人人爽| 久久久亚洲精品视频| 欧美色视频日本版| 久久精品视频播放| 日韩欧美亚洲范冰冰与中字| 亚洲午夜国产成人av电影男同| 亚洲999一在线观看www| 久久精品最新地址| 国产精品福利在线观看| 国产精品视频精品| 国产午夜精品理论片a级探花| 精品日韩视频在线观看| 欧美日在线观看| 久久精品国产免费观看| 97国产成人精品视频| 亚洲激情小视频| 精品中文字幕久久久久久| 亚洲精品在线不卡| 欧美精品videosex性欧美| 亚洲一区二区自拍| 国产精品久久久久久久久久久新郎| 亚洲男人天堂视频| 国产成人福利夜色影视| 亚洲全黄一级网站| 久久久久久久爱| 亚洲福利小视频| 久久久免费观看视频| 亚洲欧美一区二区三区在线| 精品毛片三在线观看| 精品二区三区线观看| 欧美精品激情在线观看| 日韩欧美亚洲范冰冰与中字| 78m国产成人精品视频| 中文字幕亚洲欧美日韩在线不卡| 91欧美日韩一区| 色综合色综合久久综合频道88| 成人精品一区二区三区电影免费| 久久精品影视伊人网| 亚洲国内高清视频| 久久综合久久88| 亚洲男人av电影| 久久久久久久久久久久久久久久久久av| 国产精品自拍偷拍| 亚洲免费av网址| 岛国av一区二区在线在线观看| 日韩av高清不卡| 国产欧美一区二区三区视频| 最近2019中文免费高清视频观看www99| 91天堂在线视频| 久久欧美在线电影| 中文字幕亚洲情99在线| 亚洲最大福利网站| xxxxxxxxx欧美| 日韩视频免费中文字幕| 欧美人交a欧美精品| 欧美一性一乱一交一视频| 51午夜精品视频| 国产精品成人v| 在线观看欧美日韩国产| 欧美做爰性生交视频| 国产成人涩涩涩视频在线观看| 日本免费一区二区三区视频观看| 7777免费精品视频| 欧美高清视频在线| 亚洲v日韩v综合v精品v| 日韩av中文字幕在线| 日韩av电影在线网| 国产精品中文字幕久久久| 91中文在线观看| 亚洲欧洲午夜一线一品| 最新69国产成人精品视频免费| 成人免费看片视频| 久久天天躁狠狠躁夜夜av| 久久99精品国产99久久6尤物| 97久久伊人激情网| 日本欧美在线视频| 国产精品视频男人的天堂| 久久人91精品久久久久久不卡| 97人人爽人人喊人人模波多| 国产精品视频男人的天堂| 久久激情视频免费观看| 亚洲人成网站免费播放| 一区二区三区 在线观看视| 国产精品成人品| 91情侣偷在线精品国产| 热99久久精品| 精品在线观看国产| 插插插亚洲综合网| 欧美激情18p| 欧美一区二区色| 国产精品日韩一区| 欧洲成人性视频| 91高清在线免费观看| 成人在线观看视频网站| 亚洲aa中文字幕| 久久影视电视剧免费网站| 日韩在线视频中文字幕| 国内精品一区二区三区四区| 国产精品扒开腿做| 精品久久久香蕉免费精品视频| 国产日韩欧美黄色| 91精品中文在线| 日本高清不卡的在线| 亚洲视频电影图片偷拍一区| 国产亚洲欧美日韩美女| 欧美裸体xxxx| 日韩av毛片网| 欧美成人午夜激情| 91高潮在线观看| 亚洲欧洲在线观看| 一区二区成人精品| 欧美超级免费视 在线| 久久精品久久久久久国产 免费| 91精品国产一区| 欧美裸体xxxxx| 欧美日韩裸体免费视频| 国产成人精品av| 亚洲aⅴ日韩av电影在线观看| 亚洲国产成人一区| 久久久www成人免费精品| 97视频色精品| 久久国产精品首页| 欧美激情第三页| 日本精品视频在线播放| 欧美一区二区大胆人体摄影专业网站| 国产精品久久视频| 日韩av影院在线观看| 麻豆精品精华液| 亚洲色图偷窥自拍| 欧美成人网在线| 国产精品日本精品| 欧美日韩午夜视频在线观看| 欧洲成人在线视频| 欧美一区二区三区精品电影| 91香蕉嫩草影院入口| 亚洲美女在线观看|