Python制作爬蟲抓取美女圖

2020-01-04 17:49:46

字體：大中小

來源：轉載

供稿：網友

　作為一個新世紀有思想有文化有道德時刻準備著的屌絲男青年，在現在這樣一個社會中，心疼我大慢播抵制大百度的前提下，沒事兒上上網逛逛YY看看斗魚翻翻美女圖片那是必不可少的，可是美圖雖多翻頁費勁！今天我們就搞個爬蟲把美圖都給扒下來！本次實例有2個：煎蛋上的妹子圖，某網站的rosi圖。我只是一個學習python的菜鳥，技術不可恥，技術是無罪的！??！

　　煎蛋：

　　先說說程序的流程：獲取煎蛋妹子圖URL，得到網頁代碼，提取妹子圖片地址，訪問圖片地址并將圖片保存到本地。Ready？先讓我們看看煎蛋妹子網頁：

　　我們得到URL為：http://jandan.net/ooxx/page-1764#comments 1764就是頁碼，首先我們要得到最新的頁碼，然后向前尋找，然后得到每頁中圖片的url。下面我們分析網站代碼寫出正則表達式！

　　根據之前文章的方法我們寫出如下函數getNewPage：

def __getNewPage(self):    pageCode = self.Get(self.__Url)    type = sys.getfilesystemencoding()    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">/[(.*?)/]</span>',re.S)    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))    print pageCode.decode("UTF-8").encode(type)    if newPage != None:      return newPage.group(1)    return 1500

　　不要問我為什么如果失敗返回1500。。。因為煎蛋把1500頁之前的圖片都給吃了。你也可以返回0。接下來是圖片的

def __getAllPicUrl(self,pageIndex):    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"    pageCode = self.Get(realurl)    type = sys.getfilesystemencoding()    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))    for item in items:      print item

　　好了，得到了圖片地址，接下來就是訪問圖片地址然后保存圖片了：

def __savePics(self,img_addr,folder):    for item in img_addr:      filename = item.split('/')[-1]      print "正在保存圖片：" + filename      with open(filename,'wb') as file:        img = self.Get(item)        file.write(img)

　　當你覺得信心滿滿的時候，一定會有一盆冷水澆到你的頭上，畢竟程序就是這樣，考驗你的耐性，打磨你的自信。你測試了一會兒，然后你發現你重啟程序后再也無法獲取最新頁碼，你覺得我什么也沒動啊為什么會這樣。別著急，我們將得到的網頁代碼打印出來看看：

　　看到了吧，是服務器感覺你不像瀏覽器訪問的結果把你的ip給屏蔽了。真是給跪了，辛辛苦苦碼一年，屏蔽回到解放前！那么這個如何解決呢，答：換ip 找代理。接下來我們要改一下我們的HttpClient.py 將里面的opener設置下代理服務器。具體代理服務器請自行百度之，關鍵字：http代理。想找到一個合適的代理也不容易自己ie Internet選項挨個試試，測試下網速。

# -*- coding: utf-8 -*-import cookielib, urllib, urllib2, socketimport zlib,StringIOclass HttpClient: __cookie = cookielib.CookieJar() __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})#設置代理服務器與端口 __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)#生成opener __req.addheaders = [  ('Accept', 'application/javascript, */*;q=0.8'),  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)') ] urllib2.install_opener(__req) def Get(self, url, refer=None):  try:   req = urllib2.Request(url)   #req.add_header('Accept-encoding', 'gzip')   if not (refer is None):    req.add_header('Referer', refer)   response = urllib2.urlopen(req, timeout=120)   html = response.read()   #gzipped = response.headers.get('Content-Encoding')   #if gzipped:   #  html = zlib.decompress(html, 16+zlib.MAX_WBITS)   return html  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return ''

　　然后，就可以非常愉快的查看圖片了。不過用了代理速度好慢。。?？梢栽O置timeout稍微長一點兒，防止圖片下載不下來！

　　好了，rosi的下篇文章再放！現在是時候上一波代碼了：

# -*- coding: utf-8 -*-import cookielib, urllib, urllib2, socketimport zlib,StringIOclass HttpClient: __cookie = cookielib.CookieJar() __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'}) __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler) __req.addheaders = [  ('Accept', 'application/javascript, */*;q=0.8'),  ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)') ] urllib2.install_opener(__req) def Get(self, url, refer=None):  try:   req = urllib2.Request(url)   req.add_header('Accept-encoding', 'gzip')   if not (refer is None):    req.add_header('Referer', refer)   response = urllib2.urlopen(req, timeout=120)   html = response.read()   gzipped = response.headers.get('Content-Encoding')   if gzipped:     html = zlib.decompress(html, 16+zlib.MAX_WBITS)   return html  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return '' def Post(self, url, data, refer=None):  try:   #req = urllib2.Request(url, urllib.urlencode(data))   req = urllib2.Request(url,data)   if not (refer is None):    req.add_header('Referer', refer)   return urllib2.urlopen(req, timeout=120).read()  except urllib2.HTTPError, e:   return e.read()  except socket.timeout, e:   return ''  except socket.error, e:   return '' def Download(self, url, file):  output = open(file, 'wb')  output.write(urllib2.urlopen(url).read())  output.close()# def urlencode(self, data):#  return urllib.quote(data) def getCookie(self, key):  for c in self.__cookie:   if c.name == key:    return c.value  return '' def setCookie(self, key, val, domain):  ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)  self.__cookie.set_cookie(ck)#self.__cookie.clear() clean cookie# vim : tabstop=2 shiftwidth=2 softtabstop=2 expandtabHttpClient

# -*- coding: utf-8 -*-from __future__ import unicode_literalsfrom HttpClient import HttpClientimport sys,re,osclass JianDan(HttpClient):  def __init__(self):    self.__pageIndex = 1500 #之前的圖片被煎蛋吞了    self.__Url = "http://jandan.net/ooxx/"    self.__floder = "jiandan"  def __getAllPicUrl(self,pageIndex):    realurl = self.__Url + "page-" + str(pageIndex) + "#comments"    pageCode = self.Get(realurl)    type = sys.getfilesystemencoding()    pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)    items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))    for item in items:      print item    self.__savePics(items,self.__floder)  def __savePics(self,img_addr,folder):    for item in img_addr:      filename = item.split('/')[-1]      print "正在保存圖片：" + filename      with open(filename,'wb') as file:        img = self.Get(item)        file.write(img)  def __getNewPage(self):    pageCode = self.Get(self.__Url)    type = sys.getfilesystemencoding()    pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">/[(.*?)/]</span>',re.S)    newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))    print pageCode.decode("UTF-8").encode(type)    if newPage != None:      return newPage.group(1)    return 1500  def start(self):    isExists=os.path.exists(self.__floder)#檢測是否存在目錄    print isExists    if not isExists:      os.mkdir(self.__floder)    os.chdir(self.__floder)    page = int(self.__getNewPage())    for i in range(self.__pageIndex,page):      self.__getAllPicUrl(i)if __name__ == '__main__':  jd = JianDan()  jd.start()JianDan

上一篇：Python使用Beautiful Soup包編寫爬蟲時的一些關鍵點

下一篇：編寫Python爬蟲抓取豆瓣電影TOP100及用戶頭像的方法