亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

使用 Node.js 開發資訊爬蟲流程

2019-11-19 14:34:36
字體:
來源:轉載
供稿:網友

最近項目需要一些資訊,因為項目是用 Node.js 來寫的,所以就自然地用 Node.js 來寫爬蟲了

項目地址:github.com/mrtanweijie… ,項目里面爬取了 Readhub 、 開源中國 、 開發者頭條 、 36Kr 這幾個網站的資訊內容,暫時沒有對多頁面進行處理,因為每天爬蟲都會跑一次,現在每次獲取到最新的就可以滿足需求了,后期再進行完善

爬蟲流程概括下來就是把目標網站的HTML下載到本地再進行數據提取。

一、下載頁面

Node.js 有很多http請求庫,這里使用 request ,主要代碼如下:

requestDownloadHTML () { const options = {  url: this.url,  headers: {  'User-Agent': this.randomUserAgent()  } } return new Promise((resolve, reject) => {  request(options, (err, response, body) => {  if (!err && response.statusCode === 200) {   return resolve(body)  } else {   return reject(err)  }  }) }) }

使用 Promise 來進行包裝,便于后面使用的時候用上 async/await 。因為有很多網站是在客戶端渲染的,所以下載到的頁面不一定包含想要的HTML內容,我們可以使用 Google 的 puppeteer 來下載客戶端渲染的網站頁面。眾所周知的原因,在 npm i 的時候 puppeteer 可能因為需要下載Chrome內核導致安裝會失敗,多試幾次就好了:)

puppeteerDownloadHTML () { return new Promise(async (resolve, reject) => {  try {  const browser = await puppeteer.launch({ headless: true })  const page = await browser.newPage()  await page.goto(this.url)  const bodyHandle = await page.$('body')  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)  return resolve(bodyHTML)  } catch (err) {  console.log(err)  return reject(err)  } }) }

當然客戶端渲染的頁面最好是直接使用接口請求的方式,這樣后面的HTML解析都不需要了,進行一下簡單的封裝,然后就可以像這樣使用了: #滑稽 :)

await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()

二、HTML內容提取

HTML內容提取當然是使用神器 cheerio 了, cheerio 暴露了和 jQuery 一樣的接口,用起來非常簡單。瀏覽器打開頁面 F12 查看提取的頁面元素節點,然后根據需求來提取內容即可

readHubExtract () { let nodeList = this.$('#itemList').find('.enableVisited') nodeList.each((i, e) => {  let a = this.$(e).find('a')  this.extractData.push(  this.extractDataFactory(   a.attr('href'),   a.text(),   '',   SOURCECODE.Readhub  )  ) }) return this.extractData }

三、定時任務

cron 每天跑一跑 function job () { let cronJob = new cron.CronJob({ cronTime: cronConfig.cronTime, onTick: () => {  spider() }, start: false }) cronJob.start()}

四、數據持久化

數據持久化理論上應該不屬于爬蟲關心的范圍,用 mongoose ,創建Model

import mongoose from 'mongoose'const Schema = mongoose.Schemaconst NewsSchema = new Schema( { title: { type: 'String', required: true }, url: { type: 'String', required: true }, summary: String, recommend: { type: Boolean, default: false }, source: { type: Number, required: true, default: 0 }, status: { type: Number, required: true, default: 0 }, createdTime: { type: Date, default: Date.now } }, { collection: 'news' })export default mongoose.model('news', NewsSchema)

基本操作

import { OBJ_STATUS } from '../../Constants'class BaseService { constructor (ObjModel) { this.ObjModel = ObjModel } saveObject (objData) { return new Promise((resolve, reject) => {  this.ObjModel(objData).save((err, result) => {  if (err) {   return reject(err)  }  return resolve(result)  }) }) }}export default BaseService

資訊

import BaseService from './BaseService'import News from '../models/News'class NewsService extends BaseService {}export default new NewsService(News)

愉快地保存數據

await newsService.batchSave(newsListTem)

更多內容到Github把項目clone下來看就好了。

總結

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美寡妇偷汉性猛交| 51色欧美片视频在线观看| 欧美成人精品h版在线观看| 欧美激情一区二区三区高清视频| 欧美成人激情视频免费观看| 国产亚洲一区二区精品| 日韩视频―中文字幕| 国产亚洲欧洲高清| 欧美视频不卡中文| 久久亚洲精品中文字幕冲田杏梨| 亚洲国产成人精品久久久国产成人一区| 亚洲欧美日韩一区二区三区在线| 成人写真视频福利网| 亚洲天天在线日亚洲洲精| 欧美午夜精品在线| 国产精品亚洲激情| 国产在线观看精品一区二区三区| 91久久在线观看| 韩剧1988免费观看全集| 最近2019好看的中文字幕免费| 91在线观看欧美日韩| 国产精品va在线| 久久久91精品国产一区不卡| 中文字幕欧美日韩精品| 欧美日韩国产精品| 色无极影院亚洲| 成人午夜在线观看| 国产极品精品在线观看| 亚洲午夜精品久久久久久久久久久久| 91久久精品国产91性色| 欧美性生活大片免费观看网址| 久久久久久久久久久91| 欧洲精品毛片网站| 成人免费在线视频网站| 一区二区三区在线播放欧美| 国产91色在线| 九九热视频这里只有精品| 欧美一级片在线播放| 成人久久一区二区三区| 精品久久久久久亚洲国产300| 亚洲国产精彩中文乱码av| 影音先锋欧美精品| 91豆花精品一区| 亚洲一区久久久| 中文字幕亚洲欧美在线| 欧美亚洲视频在线看网址| 日韩高清电影免费观看完整| 日韩av在线高清| 久久国产精品久久久| 精品无人区乱码1区2区3区在线| 国产精品伦子伦免费视频| 国内精品模特av私拍在线观看| 日本成人在线视频网址| 欧美成人免费在线视频| 国产精品入口免费视频一| 成人免费淫片aa视频免费| 岛国av午夜精品| 亚洲在线观看视频网站| 国产黑人绿帽在线第一区| 欧美极品在线视频| 久久久视频在线| 精品国产一区二区三区在线观看| 亚洲美女免费精品视频在线观看| 最近的2019中文字幕免费一页| 91在线视频导航| 91精品视频在线播放| 亚洲激情国产精品| 米奇精品一区二区三区在线观看| 欧美精品www在线观看| 日韩影视在线观看| 久久免费福利视频| 日韩av在线免费看| 日本不卡高字幕在线2019| 激情久久av一区av二区av三区| 日本免费一区二区三区视频观看| 国产欧美一区二区白浆黑人| 国产亚洲欧洲在线| 国产视频丨精品|在线观看| 在线观看日韩av| 久久全球大尺度高清视频| 91久久国产精品| 91免费国产视频| 国产一区红桃视频| 久久av红桃一区二区小说| 一区二区福利视频| 日韩激情av在线免费观看| 日韩精品免费在线观看| 7m精品福利视频导航| 日韩国产精品亚洲а∨天堂免| 亚洲精品久久久久国产| 高清在线视频日韩欧美| 大量国产精品视频| 最近的2019中文字幕免费一页| 国产啪精品视频网站| 亚洲人成77777在线观看网| 中文字幕成人在线| 日韩av在线最新| 98视频在线噜噜噜国产| 欧美成人亚洲成人日韩成人| 久久久久久久久久久网站| 国产成人精品国内自产拍免费看| 96pao国产成视频永久免费| 91在线视频精品| 成人a视频在线观看| 欧美午夜精品久久久久久人妖| 欧美电影院免费观看| 清纯唯美日韩制服另类| 亚洲精品美女在线观看播放| 欧美日韩免费观看中文| 亚洲欧美成人在线| 亚洲精品一区中文| 亚洲欧美日韩精品| 国产精品欧美日韩一区二区| 97超级碰在线看视频免费在线看| 日韩中文字幕av| 亚洲黄色www网站| 中文字幕日韩有码| 午夜精品久久久久久99热软件| 欧美整片在线观看| 亚洲国产精品久久精品怡红院| 午夜精品久久久久久久久久久久久| 久久久在线免费观看| 色诱女教师一区二区三区| 亚洲电影免费观看高清完整版在线观看| 狠狠躁夜夜躁人人爽超碰91| 国产欧美精品一区二区三区介绍| 97在线看福利| 久久精品99久久久香蕉| 日本精品一区二区三区在线播放视频| 欧美日韩午夜视频在线观看| 久久久精品一区二区三区| 亚洲精品电影网站| 欧美激情免费视频| 成人国产精品一区二区| 国产精品扒开腿做爽爽爽的视频| 亚洲午夜精品久久久久久性色| 欧日韩不卡在线视频| 96pao国产成视频永久免费| 久久av在线看| 成人网在线免费看| 久久免费国产视频| 孩xxxx性bbbb欧美| 欧美多人乱p欧美4p久久| 日韩大片在线观看视频| 亚洲精品之草原avav久久| 国产97在线|亚洲| 国产精品揄拍500视频| 国产精品视频中文字幕91| 国产精品激情自拍| 夜夜躁日日躁狠狠久久88av| 欧美性猛交xxxx偷拍洗澡| 九九精品在线观看| 91性高湖久久久久久久久_久久99| 91在线观看免费高清完整版在线观看| 欧美极品欧美精品欧美视频| 亚洲国产精品va在线观看黑人| 国产亚洲一区二区在线| 欧美精品videosex极品1| 亚洲free性xxxx护士hd| 欧美色道久久88综合亚洲精品| 亚洲国产成人爱av在线播放| 91美女福利视频高清| 一区二区三欧美| 日本在线观看天堂男亚洲|