亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

Node Puppeteer圖像識別實現百度指數爬蟲的示例

2019-11-19 14:20:11
字體:
來源:轉載
供稿:網友

之前看過一篇腦洞大開的文章,介紹了各個大廠的前端反爬蟲技巧,但也正如此文所說,沒有100%的反爬蟲方法,本文介紹一種簡單的方法,來繞過所有這些前端反爬蟲手段。

下面的代碼以百度指數為例,代碼已經封裝成一個百度指數爬蟲node庫: https://github.com/Coffcer/baidu-index-spider

note: 請勿濫用爬蟲給他人添麻煩

百度指數的反爬蟲策略

觀察百度指數的界面,指數數據是一個趨勢圖,當鼠標懸浮在某一天的時候,會觸發兩個請求,將結果顯示在懸浮框里面:

按照常規思路,我們先看下這個請求的內容:

請求 1:

 

 

請求 2:

可以發現,百度指數實際上在前端做了一定的反爬蟲策略。當鼠標移動到圖表上時,會觸發兩個請求,一個請求返回一段html,一個請求返回一張生成的圖片。html中并不包含實際數值,而是通過設置width和margin-left,來顯示圖片上的對應字符。并且請求參數上帶有res、res1這種我們不知如何模擬的參數,所以用常規的模擬請求或者html爬取的方式,都很難爬到百度指數的數據。

爬蟲思路

怎么突破百度這種反爬蟲方法呢,其實也很簡單,就是完全不去管他是如何反爬蟲的。我們只需模擬用戶操作,將需要的數值截圖下來,做圖像識別就行。步驟大概是:

  1. 模擬登錄
  2. 打開指數頁面
  3. 鼠標移動到指定日期
  4. 等待請求結束,截取數值部分的圖片
  5. 圖像識別得到值
  6. 循環第3~5步,就得到每一個日期對應的值

這種方法理論上能爬任何網站的內容,接下來我們來一步步實現爬蟲,下面會用到的庫:

  1. puppeteer 模擬瀏覽器操作
  2. node-tesseract tesseract的封裝,用來做圖像識別
  3. jimp 圖片裁剪

安裝Puppeteer, 模擬用戶操作

Puppeteer是Google Chrome團隊出品的Chrome自動化工具,用來控制Chrome執行命令??梢阅M用戶操作,做自動化測試、爬蟲等。用法非常簡單,網上有不少入門教程,順著本文看完也大概可以知道如何使用。

API文檔: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

安裝:

npm install --save puppeteer

Puppeteer在安裝時會自動下載Chromium,以確??梢哉_\行。但是國內網絡不一定能成功下載Chromium,如果下載失敗,可以使用cnpm來安裝,或者將下載地址改成淘寶的鏡像,然后再安裝:

npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrorsnpm install --save puppeteer

你也可以在安裝時跳過Chromium下載,通過代碼指定本機Chrome路徑來運行:

// npmnpm install --save puppeteer --ignore-scripts// nodepuppeteer.launch({ executablePath: '/path/to/Chrome' });

實現

為版面整潔,下面只列出了主要部分,代碼涉及到selector的部分都用了...代替,完整代碼參看文章頂部的github倉庫。

打開百度指數頁面,模擬登錄

這里做的就是模擬用戶操作,一步步點擊和輸入。沒有處理登錄驗證碼的情況,處理驗證碼又是另一個話題了,如果你在本機登錄過百度,一般不需要驗證碼。

// 啟動瀏覽器,// headless參數如果設置為true,Puppeteer將在后臺操作你Chromium,換言之你將看不到瀏覽器的操作過程// 設為false則相反,會在你電腦上打開瀏覽器,顯示瀏覽器每一操作。const browser = await puppeteer.launch({headless:false});const page = await browser.newPage();// 打開百度指數await page.goto(BAIDU_INDEX_URL);// 模擬登陸await page.click('...');await page.waitForSelecto('...');// 輸入百度賬號密碼然后登錄await page.type('...','username');await page.type('...','password');await page.click('...');await page.waitForNavigation();console.log(':white_check_mark: 登錄成功');

模擬移動鼠標,獲取需要的數據

需要將頁面滾動到趨勢圖的區域,然后移動鼠標到某個日期上,等待請求結束,tooltip顯示數值,再截圖保存圖片。

// 獲取chart第一天的坐標const position = await page.evaluate(() => { const $image = document.querySelector('...'); const $area = document.querySelector('...'); const areaRect = $area.getBoundingClientRect(); const imageRect = $image.getBoundingClientRect(); // 滾動到圖表可視化區域 window.scrollBy(0, areaRect.top); return { x: imageRect.x, y: 200 };});// 移動鼠標,觸發tooltipawait page.mouse.move(position.x, position.y);await page.waitForSelector('...');// 獲取tooltip信息const tooltipInfo = await page.evaluate(() => { const $tooltip = document.querySelector('...'); const $title = $tooltip.querySelector('...'); const $value = $tooltip.querySelector('...'); const valueRect = $value.getBoundingClientRect(); const padding = 5; return { title: $title.textContent.split(' ')[0], x: valueRect.x - padding, y: valueRect.y, width: valueRect.width + padding * 2, height: valueRect.height }});

截圖

計算數值的坐標,截圖并用jimp對裁剪圖片。

await page.screenshot({ path: imgPath });// 對圖片進行裁剪,只保留數字部分const img = await jimp.read(imgPath);await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);// 將圖片放大一些,識別準確率會有提升await img.scale(5);await img.write(imgPath);

圖像識別

這里我們用Tesseract來做圖像識別,Tesseracts是Google開源的一款OCR工具,用來識別圖片中的文字,并且可以通過訓練提高準確率。github上已經有一個簡單的node封裝: node-tesseract ,需要你先安裝Tesseract并設置到環境變量。

Tesseract.process(imgPath, (err, val) => {if (err || val == null) { console.error(':x: 識別失?。? + imgPath); return;}console.log(val);

實際上未經訓練的Tesseracts識別起來會有少數幾個錯誤,比如把9開頭的數字識別成`3,這里需要通過訓練去提升Tesseracts的準確率,如果識別過程出現的問題都是一樣的,也可以簡單通過正則去修復這些問題。

封裝

實現了以上幾點后,只需組合起來就可以封裝成一個百度指數爬蟲node庫。當然還有許多優化的方法,比如批量爬取,指定天數爬取等,只要在這個基礎上實現都不難了。

const recognition = require('./src/recognition');const Spider = require('./src/spider');module.exports = { async run (word, options, puppeteerOptions = { headless: true }) { const spider = new Spider({  imgDir,  ...options  }, puppeteerOptions); // 抓取數據 await spider.run(word); // 讀取抓取到的截圖,做圖像識別 const wordDir = path.resolve(imgDir, word); const imgNames = fs.readdirSync(wordDir); const result = []; imgNames = imgNames.filter(item => path.extname(item) === '.png'); for (let i = 0; i < imgNames.length; i++) { const imgPath = path.resolve(wordDir, imgNames[i]); const val = await recognition.run(imgPath); result.push(val); } return result; }}

反爬蟲

最后,如何抵擋這種爬蟲呢,個人認為通過判斷鼠標移動軌跡可能是一種方法。當然前端沒有100%的反爬蟲手段,我們能做的只是給爬蟲增加一點難度。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林網。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
中文在线不卡视频| 亚洲第一综合天堂另类专| 日韩在线观看免费全| 亚洲色图激情小说| 亚洲成人av片| 久久久精品日本| 热久久美女精品天天吊色| 91综合免费在线| 欧美最猛性xxxxx免费| 欧美亚洲国产日本| 亚洲国产精品国自产拍av秋霞| 欧美激情日韩图片| 久久九九精品99国产精品| 国产精品爱啪在线线免费观看| 91精品国产综合久久久久久蜜臀| 91欧美精品成人综合在线观看| 性欧美暴力猛交69hd| 日韩欧美在线字幕| 久久精品人人做人人爽| 中文国产成人精品| 国产精品免费看久久久香蕉| 国产在线98福利播放视频| 8090理伦午夜在线电影| 国产成人在线视频| 国产欧美最新羞羞视频在线观看| 91久久久精品| 国产精品入口福利| 国内精品在线一区| 91在线观看免费观看| 久久久精品一区| 国产一区二区三区日韩欧美| 久久午夜a级毛片| 久久亚洲精品网站| 精品视频久久久久久| 亚洲男人天堂古典| 亚洲护士老师的毛茸茸最新章节| 亚洲天堂男人天堂女人天堂| 国产精品91久久久久久| 欧美亚洲视频在线观看| 欧美性jizz18性欧美| 成人免费视频网址| 韩剧1988免费观看全集| 欧美国产高跟鞋裸体秀xxxhd| 欧美巨乳在线观看| 蜜臀久久99精品久久久久久宅男| 成人黄色av免费在线观看| 欧美在线观看视频| 成人a视频在线观看| 国产精品盗摄久久久| 国产成人精品综合| 中文字幕亚洲无线码在线一区| 91在线免费观看网站| 久久亚洲电影天堂| 亚洲欧美一区二区激情| 97在线视频免费观看| 久久久久亚洲精品成人网小说| 久久精品国产99国产精品澳门| 国产亚洲美女精品久久久| 亚洲国产高清高潮精品美女| 国产精品福利片| 国产激情久久久| 中文字幕亚洲欧美日韩高清| 亚洲一区二区中文| 原创国产精品91| 97碰碰碰免费色视频| 夜夜嗨av一区二区三区免费区| 日本久久久a级免费| 久久精品人人做人人爽| 亚洲精品自拍第一页| 在线观看精品自拍私拍| 精品久久久av| 亚洲a在线播放| 97欧美精品一区二区三区| 久久久精品999| 亚洲理论在线a中文字幕| 国产99久久久欧美黑人| 青青草99啪国产免费| 国产在线精品成人一区二区三区| 欧美日韩ab片| 久久久www成人免费精品张筱雨| 欧美俄罗斯性视频| 自拍偷拍亚洲在线| 久久久久国产一区二区三区| 91福利视频在线观看| 日韩欧美高清视频| 成人免费自拍视频| 国产精品视频一区国模私拍| 成人性生交大片免费看视频直播| 国产亚洲视频中文字幕视频| 亚洲人成网在线播放| 国产不卡在线观看| 91精品国产精品| 久久99久久久久久久噜噜| 中国china体内裑精亚洲片| 欧美在线视频免费播放| 国产精品第3页| 久久夜色精品国产亚洲aⅴ| 精品美女久久久久久免费| 欧美视频二区36p| 亚洲精品91美女久久久久久久| 亚洲午夜色婷婷在线| 久久精品国产亚洲一区二区| 中文字幕在线看视频国产欧美| 91成品人片a无限观看| 欧美性理论片在线观看片免费| 国产精品视频99| 992tv成人免费视频| 精品无人区乱码1区2区3区在线| 久久五月情影视| 高清视频欧美一级| 欧美限制级电影在线观看| 91sa在线看| 国产精品久久久久福利| 久久好看免费视频| 色婷婷av一区二区三区在线观看| 亚洲国产精品嫩草影院久久| 欧美视频在线视频| 国产精品揄拍500视频| 日韩精品有码在线观看| 欧美亚洲激情视频| 日韩欧美在线观看| 国产日韩精品视频| 亚洲第一网中文字幕| 中文字幕亚洲综合久久筱田步美| 18性欧美xxxⅹ性满足| 日韩欧美国产免费播放| 国产成人午夜视频网址| 亚洲成人精品在线| 亚洲欧美制服另类日韩| 福利二区91精品bt7086| 亚洲欧美国产高清va在线播| 欧美性精品220| 亚洲欧美日韩第一区| 国产欧美日韩中文字幕在线| 日韩av免费在线播放| 久久免费福利视频| 欧美日韩亚洲一区二区| 久久久久久久爱| 一本一本久久a久久精品牛牛影视| 亚洲视频国产视频| 日韩va亚洲va欧洲va国产| 18性欧美xxxⅹ性满足| 国产精品久久久久aaaa九色| 永久免费看mv网站入口亚洲| 久久久久久91香蕉国产| 亚洲第一精品福利| 91精品啪在线观看麻豆免费| 一个人看的www久久| 精品久久久久久久大神国产| 精品av在线播放| 国产精品入口尤物| 91久久精品国产91久久| 黑人巨大精品欧美一区二区一视频| 久久久久北条麻妃免费看| 国产成人精品午夜| 亚洲成年网站在线观看| 日韩一级黄色av| 91超碰caoporn97人人| 亚洲国产美女精品久久久久∴| 国内精品久久久久久久久| 成人写真视频福利网| 亚洲曰本av电影| 日韩成人在线播放| 在线激情影院一区|