亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享

2019-11-20 10:23:50
字體:
來源:轉載
供稿:網友

其實寫爬蟲的思路十分簡單:

  • 按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類)
  • 利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數據
  • 將數據持久化到數據庫中

但是真正寫起這個爬蟲來,我還是遇到了很多的問題(和自己的基礎不扎實也有很大的關系,node.js 并沒有怎么認真的學過)。主要還是 node.js 的異步和回調知識沒有完全掌握,導致在寫代碼的過程中走了很多彎路。

模塊化

模塊化對于 node.js 程序是至關重要的,不能像原來寫 PHP 那樣所有的代碼都扔到一個文件里(當然這只是我個人的惡習),所以一開始就要分析這個爬蟲需要實現的功能,并大致的劃分了三個模塊。

主程序,調用爬蟲模塊和持久化模塊實現完整的爬蟲功能
爬蟲模塊,根據傳來的數據發送請求,解析 HTML 并提取有用數據,返回一個對象
持久化模塊,接受一個對象,將其中的內容儲存到數據庫中
模塊化也帶來了困擾了我一個下午的問題:模塊之間的異步調用導致數據錯誤。其實我至今都不太明白問題到底出在哪兒,鑒于腳本語言不那么方便的調試功能,暫時還沒有深入研究。

另外一點需要注意的是,模塊化時盡量慎用全局對象來儲存數據,因為可能你這個模塊的一個功能還沒有結束,這個全局變量已經被修改了。

Control Flow

這個東西很難翻譯,直譯叫控制流(嗎)。眾所周知,node.js 的核心思想就是異步,但是異步多了就會產生好幾層嵌套,代碼實在難看。這個時候,你需要借助一些 Control Flow 模塊來重新整理你的邏輯。在這里就要推薦開發社區十分活躍,用起來也很順手的 async.js(https://github.com/caolan/async/)。

async 提供了很多實用的方法,我在寫爬蟲時主要用到了

  • async.eachSeries(arr, fn, callback)  依次把 arr 中的每一個元素傳給 fn,若 fn 回調沒有返回錯誤對象就繼續傳下一個,否則把錯誤對象傳給 callback,循環結束
  • async.parallel(fn[, fn] , callback)  當所有的 fn 都執行完成后執行 callback

這些控制流方法給爬蟲的開發工作帶來了很大的方便??紤]這么一個應用場景,你需要把若干條數據插入數據庫(屬于同一個學生),你需要在所有數據都插入完成后才能返回結果,那么如何保證所有的插入操作都結束了呢?只能是層層回調保證,如果用 async.parallel 就方便多了。

這里再多提一句,本來保證所有的插入都完成這個操作可以在 SQL 層實現,即 transaction,但是 node-mysql 截止我使用的時候還是沒有很好的支持 transaction,所以只有自己手動用代碼保證了。

解析 HTML

在解析過程中也遇到一些問題,這里一并記錄下來。

最基本的發送 HTTP 請求獲得 HTML 代碼,使用 node 自帶的 http.request 功能即可。如果是爬簡單的內容,比如獲得某個指定 id 元素中的內容(常見于抓去商品價格),那么正則足以完成任務。但是對于復雜的頁面,尤其是數據項較多的頁面,使用 DOM 會更加方便高效。

而 node.js 最好的 DOM 實現非 cheerio(https://github.com/MatthewMueller/cheerio) 莫屬了。其實 cheerio 應該算是 jQuery 的一個針對 DOM 操作優化和精簡的子集,包含了 DOM 操作的大部分內容,去除了其它不必要的內容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內容。

下載圖片
在爬數據時,我們可能還需要下載圖片。其實下載圖片的方式和普通的網頁沒有太大的區別,但是有一點讓我吃了苦頭。

注意下面代碼中言辭激烈的注釋,那就是我年輕時犯下的錯誤……

var req = http.request(options, function(res){  //初始化數據?。?!  var binImage = '';  res.setEncoding('binary');  res.on('data', function(chunk){   binImage += chunk;  });  res.on('end', function(){   if (!binImage) {    console.log('image data is null');    return null;   }   fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){    if (err) {     console.log('image writing error:' + err.message);     return null;    }    else{     console.log('image ' + filename + ' saved');     return filename;    }   });  });  res.on('error', function(e){   console.log('image downloading response error:' + e.message);   return null;  }); }); req.end();

GBK 轉碼
另外一個值得說明的問題就是 node.js 爬蟲在爬 GBK 編碼內容時轉碼的問題,其實這個問題很好解決,但是新手可能會繞彎路。這里就把源碼全部奉上:

var req = http.request(options, function(res) {  res.setEncoding('binary');  res.on('data', function (chunk) {  html += chunk;  });  res.on('end', function(){  //轉換編碼  html = iconv.decode(html, 'gbk');  }); }); req.end();

這里我使用的轉碼庫是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等雙字節編碼。

實例:爬蟲批量下載百度圖片

var fs = require('fs'),  path = require('path'),  util = require('util'), // 以上為Nodejs自帶依賴包  request = require('request'); // 需要npm install的包  // main函數,使用 node main執行即可 patchPreImg();  // 批量處理圖片 function patchPreImg() {  var tag1 = '攝影', tag2 = '國家地理',   url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=',   url = util.format(url, 0, tag1, tag2),   url = encodeURI(url),   dir = 'D:/downloads/images/',   dir = path.join(dir, tag1, tag2),   dir = mkdirSync(dir);   request(url, function(error, response, html) {   var data = JSON.parse(html);   if (data && Array.isArray(data.imgs)) {    var imgs = data.imgs;    imgs.forEach(function(img) {     if (Object.getOwnPropertyNames(img).length > 0) {      var desc = img.desc || ((img.owner && img.owner.userName) + img.column);      desc += '(' + img.id + ')';      var downloadUrl = img.downloadUrl || img.objUrl;      downloadImg(downloadUrl, dir, desc);     }    });   }  }); }  // 循環創建目錄 function mkdirSync(dir) {  var parts = dir.split(path.sep);  for (var i = 1; i <= parts.length; i++) {   dir = path.join.apply(null, parts.slice(0, i));   fs.existsSync(dir) || fs.mkdirSync(dir);  }  return dir; }  var index = 1; // 開始下載圖片,并log統計日志 function downloadImg(url, dir, desc) {  var fileType = 'jpg';  if (url.match(//.(/w+)$/)) fileType = RegExp.$1;  desc += '.' + fileType;  var options = {   url: url,   headers: {    Host: 'f.hiphotos.baidu.com',    Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'   }  };  var startTime = new Date().getTime();  request(options)   .on('response', function() {    var endTime = new Date().getTime();    console.log('Downloading...%s.. %s, 耗時: %ss', index++, desc, (endTime - startTime) / 1000);   })   .pipe(fs.createWriteStream(path.join(dir, desc))); } 

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产97在线亚洲| 亚洲天堂成人在线| 日韩高清免费在线| 成人a在线视频| 国产一区二区三区在线免费观看| 亚洲欧洲偷拍精品| 欧美第一淫aaasss性| 亚洲乱码国产乱码精品精天堂| 久久久成人精品视频| 在线亚洲午夜片av大片| 国产成人午夜视频网址| 久久精品99久久香蕉国产色戒| 国产97在线|日韩| 国产精品久久精品| 在线播放精品一区二区三区| 亚洲桃花岛网站| 国产精品极品美女在线观看免费| 欧美日韩第一视频| 最近2019年好看中文字幕视频| 亚洲自拍偷拍色图| 成人久久一区二区三区| 日本免费在线精品| 日韩在线不卡视频| 欧美疯狂做受xxxx高潮| 亚洲缚视频在线观看| 成人网欧美在线视频| 国产欧亚日韩视频| 亚洲欧美国产制服动漫| xvideos亚洲| 5566日本婷婷色中文字幕97| 中文在线资源观看视频网站免费不卡| 日韩av综合网| 日韩成人中文电影| 91在线免费观看网站| 亚洲精品资源美女情侣酒店| 国产精品福利网站| 欧美精品免费在线| 亚洲免费伊人电影在线观看av| 欧美日韩成人精品| 久久99久久99精品中文字幕| 亚洲女人天堂网| 中文字幕在线日韩| 欧美怡春院一区二区三区| 欧美国产日韩一区二区| 久久久久久一区二区三区| 2019中文字幕在线| 亚洲综合在线小说| 91av视频在线播放| 亚洲美女在线视频| 国产精品h片在线播放| 亚洲最新av网址| 日韩三级成人av网| 国内精品一区二区三区| 日韩久久免费电影| 久久精品在线播放| 精品少妇一区二区30p| 久久人体大胆视频| 中文字幕在线视频日韩| 7777kkkk成人观看| 91精品国产综合久久久久久蜜臀| 亚洲第一网中文字幕| 精品自在线视频| 国产精品嫩草影院一区二区| 欧美疯狂xxxx大交乱88av| 亚洲第一福利视频| 伊人久久大香线蕉av一区二区| 国产午夜精品麻豆| 欧美—级高清免费播放| 国产亚洲a∨片在线观看| 91超碰caoporn97人人| 亚洲精品资源在线| 97精品视频在线| 日本最新高清不卡中文字幕| 日韩一区二区三区国产| 日韩一中文字幕| 日韩视频在线免费| 欧美成人精品在线播放| 亚洲精品成人av| 国产精品看片资源| 亚洲国产日韩欧美在线99| 日本韩国欧美精品大片卡二| 57pao成人国产永久免费| 日本久久久a级免费| 理论片在线不卡免费观看| 色哟哟网站入口亚洲精品| 日韩美女写真福利在线观看| 欧美国产日韩一区二区在线观看| 精品日韩美女的视频高清| 欧美日韩免费观看中文| 啪一啪鲁一鲁2019在线视频| 国产精品第七影院| 在线观看精品自拍私拍| 性欧美办公室18xxxxhd| 精品久久久久久久久久久| 国产成人亚洲综合| 操91在线视频| 亚洲欧美日本精品| 伊人久久久久久久久久久久久| 欧美剧在线观看| 亚洲福利视频久久| 97在线精品视频| 亚洲欧美日韩精品久久奇米色影视| 久久免费视频网| 亚洲色图激情小说| 国产视频自拍一区| xvideos成人免费中文版| 欧美电影在线观看完整版| 91成人天堂久久成人| 国产免费一区二区三区香蕉精| 欧美午夜宅男影院在线观看| 亚洲人成电影网站色| 97视频在线观看免费| 欧美激情综合色综合啪啪五月| 国产91|九色| 51精品国产黑色丝袜高跟鞋| 国产视频精品免费播放| 国产日韩欧美91| 国产精品久久激情| 亚洲国产欧美一区二区三区久久| 国产精品一香蕉国产线看观看| 91在线精品视频| 亚洲电影免费观看高清| 欧美高清自拍一区| 有码中文亚洲精品| 精品久久久91| 国产一区二区三区在线播放免费观看| 精品高清美女精品国产区| 久久国产视频网站| 国产亚洲成精品久久| 中文字幕亚洲欧美一区二区三区| 538国产精品一区二区免费视频| 亚洲欧美日韩一区二区三区在线| 日韩最新在线视频| 国产精品亚洲激情| 欧美一级高清免费播放| 久久精品中文字幕电影| 伊人久久久久久久久久| 97在线视频免费观看| 一区二区三区四区精品| 国产成人高潮免费观看精品| 欧美日韩在线第一页| 精品日韩视频在线观看| 北条麻妃一区二区在线观看| 国产精品自产拍在线观看| 欧美老女人在线视频| 国产精品免费观看在线| 久久国产一区二区三区| 国产综合在线观看视频| 美女福利精品视频| 成人黄色网免费| 国产精品一区二区三| 日韩欧美在线中文字幕| 精品久久久久久中文字幕| 亚州成人av在线| 成人午夜在线视频一区| 国产一区二区色| 神马久久桃色视频| 久久免费国产视频| 日韩精品在线看| 亚洲第一区第二区| 国产69精品久久久| 欧美精品aaa| 裸体女人亚洲精品一区| 亚洲视频一区二区三区|