亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

詳解Python爬蟲的基本寫法

2020-01-04 17:51:43
字體:
來源:轉載
供稿:網友
這篇文章主要介紹了詳解Python爬蟲的基本寫法 的相關資料,需要的朋友可以參考下
 

什么是爬蟲

爬蟲,即網絡爬蟲,大家可以理解為在網絡上爬行的一直蜘蛛,互聯網就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那么它就會抓取下來。想抓取什么?這個由你來控制它咯。

比如它在抓取一個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超鏈接,那么它就可以爬到另一張網上來獲取數據。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及,分分鐘爬下來不是事兒。

1.最基本的抓站

import urllib2content = urllib2.urlopen('http://XXXX').read()

2.使用代理服務器

這在某些情況下比較有用,比如IP被封了,或者比如IP訪問的次數受到限制等等。

import urllib2proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()

3.需要登錄的情況

登錄的情況比較麻煩我把問題拆分一下:

3.1.cookie的處理

import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()

是的沒錯,如果想同時用代理和cookie,那就加入proxy_support然后operner改為

opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表單的處理

登錄必要填表,表單怎么填?首先利用工具截取所要填表的內容
比如我一般用firefox+httpfox插件來看看自己到底發送了些什么包
這個我就舉個例子好了,以verycd為例,先找到自己發的POST請求,以及POST表單項:

可以看到verycd的話需要填username,password,continueURI,fk,login_submit這幾項,其中fk是隨機生成的(其實不太隨機,看上去像是把epoch時間經過簡單的編碼生成的),需要從網頁獲取,也就是說得先訪問一次網頁,用正則表達式等工具截取返回數據中的fk項。continueURI顧名思義可以隨便寫,login_submit是固定的,這從源碼可以看出。還有username,password那就很顯然了。

好的,有了要填寫的數據,我們就要生成postdata

import urllibpostdata=urllib.urlencode({'username':'XXXXX','password':'XXXXX','continueURI':'http://www.verycd.com/','fk':fk,'login_submit':'登錄'})

然后生成http請求,再發送請求:

req = urllib2.Request(url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',data = postdata)result = urllib2.urlopen(req).read()

3.3 偽裝成瀏覽器訪問

某些網站反感爬蟲的到訪,于是對爬蟲一律拒絕請求

這時候我們需要偽裝成瀏覽器,這可以通過修改http包中的header來實現

#…headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}req = urllib2.Request(url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',data = postdata,headers = headers)#...

3.4 反”反盜鏈”

某些站點有所謂的反盜鏈設置,其實說穿了很簡單,就是檢查你發送請求的header里面,referer站點是不是他自己,所以我們只需要像3.3一樣,把headers的referer改成該網站即可,以黑幕著稱地cnbeta為例:

#...headers = {'Referer':'http://www.cnbeta.com/articles'}#...

headers是一個dict數據結構,你可以放入任何想要的header,來做一些偽裝。例如,有些自作聰明的網站總喜歡窺人隱私,別人通過代理訪問,他偏偏要讀取header中的X-Forwarded-For來看看人家的真實IP,沒話說,那就直接把X-Forwarde-For改了吧,可以改成隨便什么好玩的東東來欺負欺負他,呵呵。

3.5 終極絕招

有時候即使做了3.1-3.4,訪問還是會被據,那么沒辦法,老老實實把httpfox中看到的headers全都寫上,那一般也就行了。
再不行,那就只能用終極絕招了,selenium直接控制瀏覽器來進行訪問,只要瀏覽器可以做到的,那么它也可以做到。類似的還有pamie,watir,等等等等。

4.多線程并發抓取

print time.time()-start1..from threading import Threadfrom Queue import Queuefrom time import sleepimport urllib2import timeq = Queue()NUM = 10JOBS = 50def do_somthing_using(p):response = urllib2.urlopen('http://www.cnblogs.com')result = response.read()#print pdef working():while True:arguments = q.get()do_somthing_using(arguments)q.task_done()for i in xrange(NUM):t = Thread(target=working)t.setDaemon(True)t.start()start = time.time()for i in xrange(JOBS):q.put(i)q.join()print "MultiThreading:"print time.time()-start2..from threading import Threadfrom multiprocessing.dummy import Pool as ThreadPoolimport urllib2import timestart = time.time()url = "http://www.cnblogs.com"urls = [url] * 50pool = ThreadPool(4)results = pool.map(urllib2.urlopen, urls)pool.close()pool.join()print "Map:"print time.time()-start

關于Python爬蟲的基本寫法小編就給大家介紹到這里,后續還會持續更細,敬請關注,謝謝!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
4k岛国日韩精品**专区| 日韩美女免费线视频| 亚洲香蕉在线观看| 国产亚洲成av人片在线观看桃| 国产精品国内视频| 亚洲嫩模很污视频| 中文字幕久热精品在线视频| 久青草国产97香蕉在线视频| 国产精品久久久久999| 一本大道久久加勒比香蕉| 欧美性猛交xxxx乱大交| 亚洲成人精品久久| 国产精品99久久久久久www| 国产在线一区二区三区| 欧美一级高清免费| 亚洲国产古装精品网站| 国产日韩精品入口| 欧美大片大片在线播放| 国产精品第七影院| 精品偷拍一区二区三区在线看| 久久韩剧网电视剧| 国产男人精品视频| 亚洲一区www| www国产亚洲精品久久网站| 91a在线视频| 久久综合九色九九| 日韩成人性视频| 国产精品日韩精品| 黑人巨大精品欧美一区免费视频| 亚洲天堂视频在线观看| 欧美另类69精品久久久久9999| 超在线视频97| 成人精品一区二区三区电影黑人| 日韩欧美成人免费视频| 国产成人精品网站| 91免费人成网站在线观看18| 欧美富婆性猛交| 国产精品一久久香蕉国产线看观看| 日韩精品在线视频| 亚洲电影免费观看高清完整版在线| 中文国产成人精品久久一| 精品日本高清在线播放| 日韩一区二区欧美| 最新国产成人av网站网址麻豆| 日韩风俗一区 二区| 精品亚洲一区二区三区| 欧美高清视频在线观看| 亚洲片国产一区一级在线观看| 久久人人看视频| 久青草国产97香蕉在线视频| zzijzzij亚洲日本成熟少妇| 国产精品伦子伦免费视频| 国产日韩欧美综合| 热久久美女精品天天吊色| 亚洲人成电影在线播放| 成人国产精品一区| 一区二区三区无码高清视频| 国产噜噜噜噜噜久久久久久久久| 亚洲男子天堂网| 国产精品视频导航| 成人福利视频网| 国产综合久久久久| 91中文在线视频| 日韩av在线免费观看| 欧美日韩国产丝袜另类| 色www亚洲国产张柏芝| 亚洲xxxxx性| 国产一区二区三区在线观看视频| 日韩极品精品视频免费观看| 精品无人区乱码1区2区3区在线| 色小说视频一区| 欧美成人免费观看| 欧美激情二区三区| 疯狂做受xxxx高潮欧美日本| 97精品欧美一区二区三区| 日韩av综合网站| www.久久色.com| 欧美一乱一性一交一视频| 国产在线日韩在线| 亚洲精品国精品久久99热一| 国产欧美一区二区三区久久| 欧美日韩美女在线| 亚洲人成网7777777国产| 97精品在线观看| 国产精品普通话| 午夜精品一区二区三区在线| 精品在线小视频| 成人深夜直播免费观看| 91色视频在线观看| 欧美日韩高清在线观看| 欧美大片大片在线播放| 国产精品女人网站| 午夜精品久久久久久久久久久久| 久久影视电视剧免费网站清宫辞电视| 国产成人综合精品| 国产一区二区日韩精品欧美精品| 91tv亚洲精品香蕉国产一区7ujn| 国产精品高清免费在线观看| 亚洲欧美日韩国产中文专区| 国产精品一区二区久久久久| 亚洲国产精品99| 国内精品视频在线| 国产精品欧美日韩久久| 欧美美女操人视频| 亚洲欧美中文日韩在线v日本| 欧美黑人xxx| 国产精品88a∨| 国产精品一区二区久久国产| 91精品国产色综合| 国产美女精品视频免费观看| 亚洲欧美日韩视频一区| 黑人欧美xxxx| 成人在线一区二区| 国产一区二区三区视频| 久久免费观看视频| 国产在线观看不卡| 欧美日韩国产综合视频在线观看中文| 成人国产精品久久久久久亚洲| 国产精品久久久久久久app| www.久久久久| 亚洲欧美一区二区三区情侣bbw| 在线亚洲男人天堂| 亚洲成人黄色网址| 国产日韩换脸av一区在线观看| 国内外成人免费激情在线视频| 亚洲美女自拍视频| 国产精品自拍偷拍视频| 中文字幕亚洲综合| 亚洲qvod图片区电影| 亚洲精品永久免费精品| 亚洲欧美在线x视频| 中文字幕少妇一区二区三区| 亚洲男人的天堂网站| 亚洲自拍偷拍色片视频| 亚洲视频精品在线| 免费av一区二区| 国产98色在线| 68精品久久久久久欧美| 日韩免费在线视频| 欧美性xxxx| 国产成人小视频在线观看| 欧美日本在线视频中文字字幕| 国产国产精品人在线视| 红桃av永久久久| 国内精品久久久久影院优| 在线看日韩欧美| 欧美国产在线视频| 久久亚洲精品一区二区| 成人欧美一区二区三区在线湿哒哒| 亚洲丝袜av一区| 狠狠久久五月精品中文字幕| 久久精品一本久久99精品| 国产福利视频一区| 日韩美女免费线视频| 一区二区三区天堂av| 成人性生交大片免费观看嘿嘿视频| 亚洲综合日韩中文字幕v在线| 亚洲v日韩v综合v精品v| 91美女福利视频高清| 91久久国产综合久久91精品网站| 国自在线精品视频| 国产欧美日韩精品专区| 欧美成人四级hd版| 一区二区三区亚洲|