亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 操作系統 > 正文

Scrapy+phantomjs爬取動態網頁數據

2024-06-28 16:02:28
字體:
來源:轉載
供稿:網友

安裝phantomjs

安裝包下載地址: http://phantomjs.org/ ,包括 Windows ,Mac OS,linux版本,自行選擇對應 版本下載解壓即可( 為方便使用,可自已為phantomjs設置環境變量 ),其中帶有一個example文件夾,里面有很多已經寫好的代碼供使用。本文假設phantomjs已經安裝好并已設置了環境變量。

Scrapy 中在setting 文件設置

#phantomjs的文件路徑,這里我復制到spiders文件中JS_BIN="spiders//phantomjs.exe"LOGIN_TYPE="myCrawl"ROBOTSTXT_OBEY = True#反爬機制ROBOTSTXT_OBEY = False#設置取消CookesCOOKIES_ENABLED = False#設置用戶代理值,隨便瀏覽一個網頁,按F12 -> Network -> F5,隨便點擊一項,你都能看到有 User-agent 這一項,將這里面的內容拷貝就可以。USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'DOWNLOAD_DELAY = 3CONCURRENT_REQUESTS=100#取消默認的useragent,使用新的useragent DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,#關閉默認下載器 'javaScriptMiddleware.JavascriptMiddleware':543 #鍵為中間件類的路徑,值為中間件的順序 }

編寫中間件

神馬是中間件?

# -*- coding: utf-8 -*-from selenium import webdriverfrom scrapy.conf import settings# from scrapy.http.response import Responsefrom scrapy.http import HtmlResponseimport timefrom scrapy import signalsfrom scrapy.xlib.pydispatch import dispatcher from telnetlib import DOclass JavaScriptMiddleware(object): def __init__(self): if settings['LOGIN_TYPE'] == 'MyCrawl': ''' self.simulation = weibo_login(settings['USERNAME'], settings['PWD'], settings['COOKIE_FILE']) cookie_file = settings['COOKIE_FILE'] cookie_jar = cookielib.LWPCookieJar(cookie_file) cookie_jar.load(ignore_discard=True, ignore_expires=True) self.driver = webdriver.PhantomJS(executable_path=settings['JS_BIN']) for c in cookie_jar: self.driver.add_cookie({'name': c.name, 'value': c.value, 'path': '/', 'domain': c.domain}) ''' # simulate user login PRocess self.driver = webdriver.PhantomJS(executable_path=settings['JS_BIN'])# 登錄# self.driver.get('http://login.sina.com.cn/')# uid = self.driver.find_element_by_id('username')# upw = self.driver.find_element_by_id('passWord')# loginBtn = self.driver.find_element_by_class_name('smb_btn')# time.sleep(1)# uid.send_keys(settings['USERNAME'])# upw.send_keys(settings['PWD'])# loginBtn.click()# time.sleep(1) elif settings['LOGIN_TYPE'] == 'other': print('add login code') pass else: self.driver = webdriver.PhantomJS(executable_path=settings['JS_BIN']) dispatcher.connect(self.spider_closed, signals.spider_closed) def process_request(self, request, spider): self.driver.get(request.url) print("頁面渲染中····開始自動下拉頁面") indexPage = 1000 while indexPage<self.driver.execute_script("return document.body.offsetHeight"): self.driver.execute_script("scroll(0,"+str(indexPage)+")") indexPage = indexPage +1000 print(indexPage) time.sleep(1) rendered_body = self.driver.page_source #編碼處理 if r'charset="GBK"' in rendered_body or r'charset=gbk' in rendered_body: coding = 'gbk' else: coding = 'utf-8' return HtmlResponse(request.url, body=rendered_body, encoding='utf-8') #關閉瀏覽器 def spider_closed(self, spider, reason): print ('close driver......') self.driver.close()

最后放蟲咬網站

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom fileinput import filenamefrom pip._vendor.requests.packages.urllib3 import responsefrom win32ui import GetTypeimport refrom builtins import strclass DmozSpider(scrapy.Spider): name = "crawl007" redis_key = 'blog.csdn.net' start_urls = ["http://blog.csdn.net/u010085423/article/details/54943875"] def parse(self, response): #//*[@id="article_details"]/div[1]/h1/span/a content = response.xpath("http://[@id='article_details']/div[1]/h1/span/a/text()").extract() if content: print(content[0])
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲精品视频在线播放| 欧美日韩精品中文字幕| 最新69国产成人精品视频免费| 成人国产精品一区二区| 国产在线观看精品| 国产精品亚洲综合天堂夜夜| 精品国产精品自拍| 日本韩国在线不卡| 欧美精品激情视频| 久久九九免费视频| 亚洲精品国产suv| 亚洲精品国偷自产在线99热| 中文字幕亚洲一区二区三区| 久久久久久久香蕉网| 亚洲欧洲视频在线| 欧美丰满老妇厨房牲生活| 欧美激情乱人伦| 日韩国产一区三区| 亚洲欧洲在线观看| 伊人精品在线观看| 欧美视频免费在线| 亚洲在线www| 成人免费福利视频| 国产免费一区二区三区在线观看| 欧美性高跟鞋xxxxhd| 亚洲毛片在线观看| 亚洲国产成人精品一区二区| 欧美成人精品激情在线观看| 欧美日韩国产成人在线| 亚洲第一页自拍| 欧美激情女人20p| 欧美中文字幕在线| 日韩在线观看网址| www.欧美视频| 精品国产精品三级精品av网址| 亚洲bt天天射| 欧美日韩在线视频一区二区| 欧美大学生性色视频| 中文字幕日韩欧美在线视频| 国产在线拍揄自揄视频不卡99| 亚洲精品一区中文字幕乱码| 国产亚洲精品高潮| 亚洲色图欧美制服丝袜另类第一页| 国产一区二区黄| 国产精品美女久久久免费| 好吊成人免视频| 欧美性xxxxhd| 国产成人久久久精品一区| 欧美日韩激情美女| 中文字幕一区电影| 国产亚洲精品成人av久久ww| 在线看日韩av| 欧美丰满片xxx777| 亚洲精品99999| 青青久久av北条麻妃海外网| 日韩va亚洲va欧洲va国产| 欧美激情视频一区| 国产精品久久久久久久av电影| 国产亚洲精品一区二555| 久久久久久12| 国产精品对白刺激| 九九久久国产精品| 亚洲电影免费观看高清| 亚洲精品美女在线| 一区二区日韩精品| 国产精品福利在线观看| 成人亚洲综合色就1024| 欧美专区日韩视频| 亚洲精品av在线| 国产精品国产三级国产aⅴ浪潮| 91精品国产乱码久久久久久蜜臀| 亚洲精品av在线| 亚洲一区精品电影| 久久亚洲成人精品| 欧美一区亚洲一区| 亚洲一区二区久久久久久久| 日韩福利视频在线观看| 国产精品视频xxx| 久久影院模特热| 深夜福利国产精品| 高清一区二区三区四区五区| 日韩中文字幕网址| 日韩欧美国产网站| 国产精品嫩草影院一区二区| 一区二区三区四区在线观看视频| 国产深夜精品福利| 日本欧美一级片| 亚洲一区二区三区乱码aⅴ蜜桃女| 日韩在线观看免费全集电视剧网站| 欧美影院久久久| 亚洲大胆人体在线| 国产999精品久久久影片官网| 欧美性高潮在线| 97超级碰碰人国产在线观看| 久久久久久久久久久久久久久久久久av| 亚洲视频免费一区| 69视频在线免费观看| 91高清视频免费观看| 欧洲日本亚洲国产区| 国产精品久久久久久久av大片| 91精品国产自产在线观看永久| 亚洲网在线观看| 免费不卡在线观看av| 日韩欧美在线观看视频| 亚洲图片欧洲图片av| 国产精欧美一区二区三区| 亚洲精品综合久久中文字幕| 国产精品亚洲视频在线观看| 欧美极品第一页| 日韩暖暖在线视频| 国产一区视频在线| 欧日韩不卡在线视频| 美女福利精品视频| 国产精品扒开腿爽爽爽视频| 欧美成人午夜激情在线| 亚洲二区在线播放视频| 欧美激情乱人伦一区| 欧美性猛交丰臀xxxxx网站| 国产欧美久久一区二区| 亚洲电影免费观看高清完整版| 蜜臀久久99精品久久久无需会员| 精品一区二区电影| 国产精品久久久一区| 欧美激情一级欧美精品| 欧美丰满少妇xxxxx| 亚洲午夜未删减在线观看| 亚洲男人天堂手机在线| 国产精品va在线播放| 91av国产在线| 最新国产精品亚洲| 一本色道久久88综合日韩精品| 欧美视频不卡中文| 日韩电影免费在线观看| 欧美老少配视频| 亚洲欧洲第一视频| 久久久999精品| 欧美激情欧美激情| 成人黄色免费网站在线观看| 国产精品福利无圣光在线一区| 日韩视频在线一区| 日韩av在线免费观看一区| 日本精品视频网站| www欧美日韩| 秋霞av国产精品一区| 国产噜噜噜噜噜久久久久久久久| 亚洲天堂网站在线观看视频| 色爱精品视频一区| 在线成人免费网站| 三级精品视频久久久久| 国产99视频在线观看| 欧美大片欧美激情性色a∨久久| 久久综合免费视频| 日韩免费在线免费观看| 91精品在线播放| 成人网页在线免费观看| 国产精品青青在线观看爽香蕉| 91大神在线播放精品| 欧美一级高清免费播放| 丁香五六月婷婷久久激情| 亚洲娇小xxxx欧美娇小| 亚洲国产欧美一区二区三区久久| 国产精品∨欧美精品v日韩精品| 亚洲最大的免费| 精品亚洲一区二区|