亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

puppeteer庫入門初探

2019-11-19 12:18:17
字體:
來源:轉載
供稿:網友

puppeteer 是一個Chrome官方出品的headless Chrome node庫。它提供了一系列的API, 可以在無UI的情況下調用Chrome的功能, 適用于爬蟲、自動化處理等各種場景

根據官網上描述,puppeteer 具有以下作用:

  • 生成頁面截圖和 PDF
  • 自動化表單提交、UI 測試、鍵盤輸入等
  • 創建一個最新的自動化測試環境。使用最新的 JavaScript 和瀏覽器功能,可以直接在最新版本的 Chrome 中運行測試。
  • 捕獲站點的時間線跟蹤,以幫助診斷性能問題。
  • 爬取 SPA 頁面并進行預渲染(即'SSR')

以下就來闡述 puppeteer 的這幾個作用

1.初始化項目

注: 這里我們會使用到 es6/7 的新特性,所以用 typescript 來編譯代碼

npm install puppeteer typescript @types/puppeteer

tsconfig.json 配置如下:

{ "compileOnSave": true, "compilerOptions": {  "target": "es5",  "lib": [   "es6", "dom"  ],  "types": [   "node"  ],  "outDir": "./dist/",  "sourceMap": true,  "module": "commonjs",  "watch": true,  "moduleResolution": "node",  "isolatedModules": false,  "experimentalDecorators": true,  "declaration": true,  "suppressImplicitAnyIndexErrors": true }, "include": [  "./examples/**/*", ]}

puppeteer 模塊提供一個方法啟動一個 Chromium 實例。

import * as puppeteer from 'puppeteer'(async () => { await puppeteer.launch()})()

上述代碼通過 puppeteer 的 launch 方法生成一個 browser 實例,launch 方法可以接收一些配置項。較為常用的有:

  • headless [boolean]: 是否以 headless 模式啟動瀏覽器
  • slowMo [number]: 減緩 puppeteer 的操作。這樣就很方便的可以看到正在發生的事情
  • args[Array[string]]: 要傳給瀏覽器實例的額外參數

2.生成頁面截圖

這里我們以 https://example.com/ 為例

(async () => { const browser = await puppeteer.launch(); //生成browser實例 const page = await browser.newPage();   //解析一個新的頁面。頁面是在默認瀏覽器上下文創建的 await page.goto("https://example.com/"); //跳轉到 https://example.com/ await page.screenshot({          //生成圖片  path: 'example.png' })})()

在這里需要注意的是,截圖默認截取的是打開網頁可視區的內容,如果要獲取完整的可滾動頁面的屏幕截圖,需要添加 fullPage: true

執行 node dist/screenshot.js ,即可在根目錄下生成 example.png

puppeteer 默認將頁面大小設置為 800*600,可以通過 page.setViewport() 來改變頁面大小。

不僅如此,puppeteer 還可以模擬手機

import * as puppeteer from "puppeteer"; import * as devices from "puppeteer/DeviceDescriptors"; const iPhone = devices["iPhone 6"];(async () => { const browser = await puppeteer.launch({  headless: false }); const page = await browser.newPage(); await page.emulate(iPhone); await page.goto("https://baidu.com/"); await browser.close();})();

3.生成 pdf

(async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto("https://example.com/"); await page.pdf({  displayHeaderFooter: true,  path: 'example.pdf',  format: 'A4',  headerTemplate: '<b style="font-size: 30px">Hello world<b/>',  footerTemplate: '<b style="font-size: 30px">Some text</b>',  margin: {   top: "100px",   bottom: "200px",   right: "30px",   left: "30px",  } }); await browser.close();})()

執行 node dist/pdf.js 即可。

4.自動化表單提交, 輸入

在這里我們模擬一下京東的登錄, 為了能更好的看到整個過程, 我們使用 headless: false 來關閉 headless 模式,看一下整個的登錄流程

(async () => { const browser = await puppeteer.launch({  headless: false }); const page = await browser.newPage(); await page.goto("https://github.com/login"); await page.waitFor(1000)  //延遲1秒輸入 await page.type("#login_field", "1137060420@qq.com"); //立即輸入 await page.type("#password", "bian1992518", {  delay: 100 }) //模擬用戶輸入 await page.click("input[type=submit]"); //點擊登錄按鈕})()

5.站點時間線追蹤

可以很方便的使用 tracking.starttracking.stop 創建一個可以在 chrome devtools 打開的跟蹤文件

(async () => { const broswer = await puppeteer.launch(); const page = await broswer.newPage(); await page.tracing.start({  path: "trace.json" }); await page.goto("https://example.com/"); await page.tracing.stop(); broswer.close();})();

執行 node dist/trace.js 會生成一個 trace.json 文件, 然后我們打開 chrome devtools -> Performance, 然后把該文件直接拖進去即可。該功能便于我們對網站進行性能分析, 進而優化性能

6.爬蟲和 SSR

現在大多數開發用 react、vue、angular 來構建 SPA 網站, SPA 固有很多的優點, 比方開發速度快、模塊化、組件化、性能優等。但其缺點還是很明顯的, 首先就是首屏渲染問題, 其次不利于 SEO, 對爬蟲不友好。

以 https://preview.pro.ant.design/#/dashboard/analysis 為例, 我們點擊右鍵, 查看源代碼, 發現其 body 里面只有 <div id="root"></div> ,假如想把門店銷售額排名情況給爬下來,存到數據庫進行數據分析(如下圖)

 

此時我們以傳統爬蟲的方式去爬的話是拿不到網頁內容的。

如 python

# -*- coding : UTF-8 -*-from bs4 import BeautifulSoup import urllib2def spider():   html = urllib2.urlopen('https://preview.pro.ant.design/#')  html = html.read()  soup = BeautifulSoup(html, 'lxml')  print(soup.prettify())if __name__ == '__main__':   spider()

執行 python py/index.py , 得到的結果如下圖:

 

body 里面并沒有頁面相關的 dom,因此我們想通過 python 去爬取 SPA 頁面的內容是不可行的。

nodejs

import axios from "axios";(async () => { const res = await axios.get("https://preview.pro.ant.design/#"); console.log(res.data);})();

執行 node dist/node-spider.js , 得到和上面例子一樣的結果。

puppeteer

(async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto("https://preview.pro.ant.design/#"); console.log(await page.content());})();

執行 node dist/spider.js , 得到如下:

 

此時我們可以驚奇的發現可以抓到頁面所有的 dom 節點了。此時我們可以把它保存下來做 SSR,也可以爬取我們想要的內容了。

(async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto("https://preview.pro.ant.design/#"); const RANK = ".rankingList___11Ilg li"; await page.waitForSelector(RANK); const res = await page.evaluate(() => {  const getText = (v, selector) => {   return v.querySelector(selector) && v.querySelector(selector).innerText;  };  const salesRank = Array.from(   document.querySelectorAll(".rankingList___11Ilg li")  );  const data = [];  salesRank.map(v => {   const obj = {    rank: getText(v, "span:nth-child(1)"),    address: getText(v, "span:nth-child(2)"),    sales: getText(v, "span:nth-child(3)")   };   data.push(obj);  });  return {   data  }; }); console.log(res); await browser.close();})();

執行 node dist/spider.js , 得到如下:

此時,我們已經利用 puppeteer 把我們所需要的數據給爬下來了。

到此,我們就把 puppeteer 基本的功能點給實現了一遍,本文示例代碼可在 github 上獲取。

參考

https://github.com/GoogleChrome/puppeteer
https://pptr.dev/#?product=Puppeteer&version=v1.6.0

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林網。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
992tv成人免费影院| 久久精品人人爽| 欧美在线欧美在线| 91色精品视频在线| 久久久久久久国产精品视频| 久久亚洲精品成人| 亚洲在线第一页| 欧美激情精品久久久| 国内精品国产三级国产在线专| 精品偷拍一区二区三区在线看| 91香蕉嫩草影院入口| 国产精品久久久久久久久久新婚| 国产亚洲激情在线| 国产精品一区二区在线| 亚洲精品美女免费| 亚洲国产成人爱av在线播放| 久久香蕉频线观| 97av在线播放| 亚洲一区精品电影| 精品国产91乱高清在线观看| 国产精品精品久久久| 欧美亚州一区二区三区| 91a在线视频| 欧美午夜影院在线视频| 欧美亚洲国产日韩2020| 欧美日韩一区二区在线播放| 欧美日韩999| 国产日韩精品入口| 欧美大片在线看免费观看| 久久人人爽人人爽人人片亚洲| 欧美中文在线字幕| 成人国产在线激情| 狠狠久久五月精品中文字幕| 亚洲人成五月天| 日韩欧美精品免费在线| 亚洲欧洲一区二区三区久久| 中文字幕久热精品视频在线| 伊人久久大香线蕉av一区二区| 亚洲字幕一区二区| 国产精品亚洲网站| 亚洲欧美综合区自拍另类| 成人97在线观看视频| 成人国产精品日本在线| 色噜噜亚洲精品中文字幕| 亚洲成人教育av| 亚洲一区二区日本| 国产午夜精品麻豆| 91精品国产91久久久久久不卡| 国产精品久久久久久亚洲影视| 91在线直播亚洲| 国产亚洲欧美视频| 狠狠躁18三区二区一区| 欧美另类第一页| 久久久久久久久久久91| 国模吧一区二区三区| 国产女同一区二区| 少妇激情综合网| 国产日韩精品在线观看| 亚洲精品国精品久久99热一| 久久成人精品视频| 欧美猛少妇色xxxxx| 国产日韩视频在线观看| 国产亚洲免费的视频看| 欧美日韩国产第一页| 亚洲日本中文字幕免费在线不卡| 欧美性猛交丰臀xxxxx网站| 国产成人av在线播放| 久久久久久九九九| 国产成人精品av在线| 欧美体内谢she精2性欧美| 亚洲一区二区久久久久久久| 欧美中文在线观看| 中文字幕国产日韩| 欧美资源在线观看| 日韩欧美a级成人黄色| 亚洲欧美在线第一页| 成人久久一区二区三区| 欧美日韩999| 美女久久久久久久| 亚洲free性xxxx护士hd| 亚洲free性xxxx护士白浆| 亚洲色图第三页| 成人国产亚洲精品a区天堂华泰| 播播国产欧美激情| 亚洲色图综合网| 欧美特级www| 成人久久久久久| 中文国产成人精品| 美女扒开尿口让男人操亚洲视频网站| 亚洲2020天天堂在线观看| 91超碰中文字幕久久精品| 美女精品视频一区| 日韩在线观看免费全| 一区二区三区回区在观看免费视频| 国产成人精品最新| 国产91色在线|免| 欧美激情一区二区三区久久久| 黑人极品videos精品欧美裸| 国产精品白嫩初高中害羞小美女| 美女性感视频久久久| 亚洲精品免费在线视频| 久久久精品美女| 亚洲乱码国产乱码精品精| 国产精品久久久久久亚洲调教| 国产精品视频播放| 久久久久久久久网站| 欧美大人香蕉在线| 国产欧美日韩91| 久久久久久亚洲精品| 国产亚洲精品综合一区91| 91国产精品91| 最近2019中文免费高清视频观看www99| 欧美成人免费视频| 日韩中文字幕欧美| 亚洲直播在线一区| 午夜精品久久久久久久99黑人| 欧美视频专区一二在线观看| 久久天天躁狠狠躁夜夜躁| 国产日韩精品综合网站| 亚洲精品日产aⅴ| 日韩美女在线观看一区| 日韩av手机在线观看| 在线观看欧美日韩| 欧美日韩激情小视频| 亚洲男人天堂视频| 国产亚洲福利一区| 亚洲女同精品视频| 国产91免费看片| 在线性视频日韩欧美| 欧美日韩午夜剧场| 欧美日韩免费区域视频在线观看| 欧美极品在线视频| 精品成人av一区| 国产精品爽黄69| 自拍偷拍亚洲在线| 性欧美办公室18xxxxhd| 色综合伊人色综合网| 日韩av日韩在线观看| 日产日韩在线亚洲欧美| 亚洲美女动态图120秒| 欧美精品日韩www.p站| 91精品国产色综合久久不卡98口| 97人洗澡人人免费公开视频碰碰碰| 亚洲国产一区二区三区在线观看| 久久五月天综合| 欧美又大粗又爽又黄大片视频| 精品爽片免费看久久| 久久久久久美女| 久久久久九九九九| 亚洲嫩模很污视频| 久久久女人电视剧免费播放下载| 97视频在线观看亚洲| 久久久亚洲国产天美传媒修理工| 久久久久久久久国产精品| 亚洲r级在线观看| 国产精品久久久久久影视| 日韩中文字幕网站| 精品美女久久久久久免费| 久久久精品免费| 色狠狠久久aa北条麻妃| 色婷婷成人综合| 国产精品 欧美在线| 国产精品视频专区| 精品激情国产视频|