亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

Python制作爬蟲抓取美女圖

2020-01-04 17:49:46
字體:
來源:轉載
供稿:網友

 作為一個新世紀有思想有文化有道德時刻準備著的屌絲男青年,在現在這樣一個社會中,心疼我大慢播抵制大百度的前提下,沒事兒上上網逛逛YY看看斗魚翻翻美女圖片那是必不可少的,可是美圖雖多翻頁費勁!今天我們就搞個爬蟲把美圖都給扒下來!本次實例有2個:煎蛋上的妹子圖,某網站的rosi圖。我只是一個學習python的菜鳥,技術不可恥,技術是無罪的!??!

  煎蛋:

  先說說程序的流程:獲取煎蛋妹子圖URL,得到網頁代碼,提取妹子圖片地址,訪問圖片地址并將圖片保存到本地。Ready? 先讓我們看看煎蛋妹子網頁:

Python制作爬蟲抓取美女圖

  我們得到URL為:http://jandan.net/ooxx/page-1764#comments 1764就是頁碼, 首先我們要得到最新的頁碼,然后向前尋找,然后得到每頁中圖片的url。下面我們分析網站代碼寫出正則表達式!

Python制作爬蟲抓取美女圖

  根據之前文章的方法我們寫出如下函數getNewPage:

def __getNewPage(self):    pageCode = self.Get(self.__Url)    type = sys.getfilesystemencoding()    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">/[(.*?)/]</span>',re.S)    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))    print pageCode.decode("UTF-8").encode(type)    if newPage != None:      return newPage.group(1)    return 1500

 

  不要問我為什么如果失敗返回1500。。。 因為煎蛋把1500頁之前的圖片都給吃了。 你也可以返回0。接下來是圖片的

Python制作爬蟲抓取美女圖

def __getAllPicUrl(self,pageIndex):    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"    pageCode = self.Get(realurl)    type = sys.getfilesystemencoding()    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))    for item in items:      print item

  好了,得到了圖片地址,接下來就是訪問圖片地址然后保存圖片了:

 

def __savePics(self,img_addr,folder):    for item in img_addr:      filename = item.split('/')[-1]      print "正在保存圖片:" + filename      with open(filename,'wb') as file:        img = self.Get(item)        file.write(img)

  當你覺得信心滿滿的時候,一定會有一盆冷水澆到你的頭上,畢竟程序就是這樣,考驗你的耐性,打磨你的自信。你測試了一會兒,然后你發現你重啟程序后再也無法獲取最新頁碼,你覺得我什么也沒動啊為什么會這樣。別著急,我們將得到的網頁代碼打印出來看看:

Python制作爬蟲抓取美女圖

  看到了吧,是服務器感覺你不像瀏覽器訪問的結果把你的ip給屏蔽了。 真是給跪了,辛辛苦苦碼一年,屏蔽回到解放前!那么這個如何解決呢,答:換ip 找代理。接下來我們要改一下我們的HttpClient.py 將里面的opener設置下代理服務器。具體代理服務器請自行百度之,關鍵字:http代理 。 想找到一個合適的代理也不容易 自己ie Internet選項挨個試試,測試下網速。

 

# -*- coding: utf-8 -*-import cookielib, urllib, urllib2, socketimport zlib,StringIOclass HttpClient: __cookie = cookielib.CookieJar() __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})#設置代理服務器與端口 __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)#生成opener __req.addheaders = [  ('Accept', 'application/javascript, */*;q=0.8'),  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)') ] urllib2.install_opener(__req) def Get(self, url, refer=None):  try:   req = urllib2.Request(url)   #req.add_header('Accept-encoding', 'gzip')   if not (refer is None):    req.add_header('Referer', refer)   response = urllib2.urlopen(req, timeout=120)   html = response.read()   #gzipped = response.headers.get('Content-Encoding')   #if gzipped:   #  html = zlib.decompress(html, 16+zlib.MAX_WBITS)   return html  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return ''

  然后,就可以非常愉快的查看圖片了。不過用了代理速度好慢。。??梢栽O置timeout稍微長一點兒,防止圖片下載不下來!

Python制作爬蟲抓取美女圖

  好了,rosi的下篇文章再放!現在是時候上一波代碼了:

# -*- coding: utf-8 -*-import cookielib, urllib, urllib2, socketimport zlib,StringIOclass HttpClient: __cookie = cookielib.CookieJar() __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'}) __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler) __req.addheaders = [  ('Accept', 'application/javascript, */*;q=0.8'),  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)') ] urllib2.install_opener(__req) def Get(self, url, refer=None):  try:   req = urllib2.Request(url)   req.add_header('Accept-encoding', 'gzip')   if not (refer is None):    req.add_header('Referer', refer)   response = urllib2.urlopen(req, timeout=120)   html = response.read()   gzipped = response.headers.get('Content-Encoding')   if gzipped:     html = zlib.decompress(html, 16+zlib.MAX_WBITS)   return html  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return '' def Post(self, url, data, refer=None):  try:   #req = urllib2.Request(url, urllib.urlencode(data))   req = urllib2.Request(url,data)   if not (refer is None):    req.add_header('Referer', refer)   return urllib2.urlopen(req, timeout=120).read()  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return '' def Download(self, url, file):  output = open(file, 'wb')  output.write(urllib2.urlopen(url).read())  output.close()# def urlencode(self, data):#  return urllib.quote(data) def getCookie(self, key):  for c in self.__cookie:   if c.name == key:    return c.value  return '' def setCookie(self, key, val, domain):  ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)  self.__cookie.set_cookie(ck)#self.__cookie.clear() clean cookie# vim : tabstop=2 shiftwidth=2 softtabstop=2 expandtabHttpClient
# -*- coding: utf-8 -*-from __future__ import unicode_literalsfrom HttpClient import HttpClientimport sys,re,osclass JianDan(HttpClient):  def __init__(self):    self.__pageIndex = 1500 #之前的圖片被煎蛋吞了    self.__Url = "http://jandan.net/ooxx/"    self.__floder = "jiandan"  def __getAllPicUrl(self,pageIndex):    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"    pageCode = self.Get(realurl)    type = sys.getfilesystemencoding()    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))    for item in items:      print item    self.__savePics(items,self.__floder)  def __savePics(self,img_addr,folder):    for item in img_addr:      filename = item.split('/')[-1]      print "正在保存圖片:" + filename      with open(filename,'wb') as file:        img = self.Get(item)        file.write(img)  def __getNewPage(self):    pageCode = self.Get(self.__Url)    type = sys.getfilesystemencoding()    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">/[(.*?)/]</span>',re.S)    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))    print pageCode.decode("UTF-8").encode(type)    if newPage != None:      return newPage.group(1)    return 1500  def start(self):    isExists=os.path.exists(self.__floder)#檢測是否存在目錄    print isExists    if not isExists:      os.mkdir(self.__floder)    os.chdir(self.__floder)    page = int(self.__getNewPage())    for i in range(self.__pageIndex,page):      self.__getAllPicUrl(i)if __name__ == '__main__':  jd = JianDan()  jd.start()JianDan

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
在线免费观看羞羞视频一区二区| 最近更新的2019中文字幕| 韩剧1988免费观看全集| 亚洲一区二区黄| 国产精品久久久久久久久久小说| 狠狠色狠狠色综合日日小说| 中文字幕少妇一区二区三区| 亚洲欧美变态国产另类| 成人精品在线视频| 久久综合九色九九| 日本中文字幕不卡免费| 97在线视频观看| 久久久精品999| 日韩亚洲欧美成人| 亚洲在线www| 久久综合电影一区| 色婷婷综合久久久久| 亚洲加勒比久久88色综合| 亚洲国产天堂久久综合| 欧美日韩免费区域视频在线观看| 日韩小视频在线观看| 精品精品国产国产自在线| 中文字幕精品一区二区精品| 亚洲美女又黄又爽在线观看| 亚洲最大成人网色| 国产精品美女网站| 亚洲人成电影网| 欧美日韩亚洲一区二| 成人中文字幕+乱码+中文字幕| 91深夜福利视频| 欧美精品激情在线观看| 欧美老女人www| 91禁国产网站| 亚洲精品日韩激情在线电影| 最近2019中文字幕第三页视频| 色婷婷成人综合| 亚洲伦理中文字幕| 一区二区三区四区在线观看视频| 九九热这里只有在线精品视| 亚洲视频自拍偷拍| 国产91成人video| 亚洲综合中文字幕68页| 国产丝袜高跟一区| 精品久久久久久久久久久久久| 性欧美在线看片a免费观看| 性夜试看影院91社区| 国产一区二区三区丝袜| 国产自产女人91一区在线观看| 久久人人爽人人| 欧美性猛交xxxx免费看| 国产视频久久久久| 国产一区二区三区视频| 亚洲国产精品专区久久| 久久影院中文字幕| 国产精品7m视频| 国产精品久久久久久网站| 中文字幕精品一区久久久久| 日韩三级影视基地| 国产精品久久久久久久久久尿| 午夜精品一区二区三区视频免费看| 久久精品这里热有精品| 欧美在线视频一区| 91精品国产综合久久久久久久久| 成人免费淫片aa视频免费| 国产美女91呻吟求| 久久免费高清视频| 综合136福利视频在线| 精品无人区乱码1区2区3区在线| 免费97视频在线精品国自产拍| 久久精品国产清自在天天线| 51午夜精品视频| 国产精品久久中文| 中文字幕亚洲无线码在线一区| 精品久久久久久亚洲精品| 亚洲视频在线观看免费| 亚洲精品天天看| 亚洲乱码国产乱码精品精天堂| 亚洲成人av片在线观看| 97av在线视频| 在线观看亚洲视频| 亚洲v日韩v综合v精品v| 国产有码在线一区二区视频| 成人日韩av在线| 亚洲欧美一区二区三区久久| 国产视频精品免费播放| 欧美激情一二三| 91久久在线观看| 亚洲丁香久久久| 欧美色道久久88综合亚洲精品| 日产日韩在线亚洲欧美| 在线丨暗呦小u女国产精品| 清纯唯美日韩制服另类| 8090成年在线看片午夜| 亚洲一区二区三区在线视频| 成人免费xxxxx在线观看| 亚洲天堂久久av| 亚洲高清免费观看高清完整版| 久久久精品2019中文字幕神马| 这里只有精品在线观看| 欧美人与性动交a欧美精品| 一区二区三区日韩在线| 国产综合在线看| 国产日本欧美在线观看| 久久天天躁狠狠躁夜夜躁2014| 亚洲国产成人在线视频| 7m第一福利500精品视频| 久久久久久久久网站| 国产免费久久av| 欧美精品在线视频观看| 成人写真视频福利网| 国产一区二区黄| 久久亚洲综合国产精品99麻豆精品福利| 亚洲自拍偷拍一区| 国产精品丝袜久久久久久高清| 中文字幕视频一区二区在线有码| 成人伊人精品色xxxx视频| 欧美天堂在线观看| 亚洲激情久久久| 国产在线不卡精品| 国产亚洲精品美女久久久| 久久99精品视频一区97| 在线电影欧美日韩一区二区私密| 66m—66摸成人免费视频| 欧美日韩性视频在线| 精品高清美女精品国产区| 黄色精品一区二区| 久热精品视频在线观看一区| 欧美日韩亚洲一区二| 欧美综合在线第二页| 在线观看国产欧美| 91精品在线影院| 国产日韩在线看| 久久深夜福利免费观看| 国产主播喷水一区二区| 亚洲精品福利在线| 欧美精品久久久久| 日韩理论片久久| 日韩三级影视基地| 国产精品一区二区性色av| 亚洲一区二区三区成人在线视频精品| 国产97免费视| 久久综合久久八八| 亚洲视频在线播放| 亚洲人成电影网站色xx| 成人网在线免费看| 日韩国产精品视频| 91久久嫩草影院一区二区| 久久久视频免费观看| 精品亚洲一区二区三区| 国产精品av电影| 国产精品69精品一区二区三区| 久久天天躁狠狠躁夜夜躁2014| 自拍视频国产精品| 1769国内精品视频在线播放| 国产午夜精品全部视频在线播放| 中文字幕不卡在线视频极品| 欧美午夜电影在线| 97av视频在线| 国产精品久久久久久久久久三级| 亚洲精品网址在线观看| 国产成人精品免费久久久久| 日韩精品中文字幕久久臀| xvideos成人免费中文版| 国产啪精品视频|