亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

學習記錄:python糗百爬蟲

2019-11-14 09:03:31
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.49028c.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产一区二区美女视频| 91天堂在线视频| 色偷偷偷亚洲综合网另类| 久久久久久亚洲| 欧美高清无遮挡| 日韩中文娱乐网| 日韩精品视频在线观看网址| 免费不卡在线观看av| 97视频在线观看视频免费视频| 亚洲成人av在线| 成人国产精品一区二区| 亚洲精品电影网| 欧美日韩成人网| 日韩精品在线视频| 国产在线观看精品一区二区三区| 欧美国产激情18| 另类专区欧美制服同性| 国产精品久久久久久av下载红粉| 久久人人爽人人爽人人片av高清| 亚洲精品国产精品久久清纯直播| 欧美日韩电影在线观看| 欧美电影在线免费观看网站| 中文字幕自拍vr一区二区三区| 91九色视频导航| 亚洲电影免费观看高清完整版| 日韩精品视频免费| 一本久久综合亚洲鲁鲁| 久久香蕉精品香蕉| 一区二区中文字幕| 中文字幕欧美专区| 日韩在线观看免费高清| 国产一区二区三区直播精品电影| 久久免费福利视频| 上原亚衣av一区二区三区| 精品久久久国产| 性欧美亚洲xxxx乳在线观看| 国产成人综合精品在线| 欧美久久久精品| 国产在线999| 亚洲欧美在线一区| 777777777亚洲妇女| 国产亚洲欧美视频| 欧美国产欧美亚洲国产日韩mv天天看完整| 久久精品国产99国产精品澳门| www.精品av.com| 91丝袜美腿美女视频网站| 欧美在线视频导航| 精品国产乱码久久久久酒店| 国产91精品久| 亚洲精品aⅴ中文字幕乱码| 中文字幕不卡在线视频极品| 黑人欧美xxxx| 欧美大全免费观看电视剧大泉洋| 97精品免费视频| 日韩av一区二区在线观看| 在线日韩欧美视频| 欧美大片第1页| 日韩一区二区福利| 一区二区三区四区视频| 日韩av影视在线| 国产免费一区视频观看免费| 国产精品高清在线观看| 777午夜精品福利在线观看| 欧美激情视频网| 欧美激情久久久久久| 在线色欧美三级视频| 6080yy精品一区二区三区| 欧日韩不卡在线视频| 国产精品国产三级国产aⅴ9色| 精品香蕉一区二区三区| www.日本久久久久com.| 91国在线精品国内播放| 亚洲精品久久久久中文字幕二区| 亚洲片国产一区一级在线观看| y97精品国产97久久久久久| 色偷偷偷综合中文字幕;dd| 久久精品久久精品亚洲人| 亚洲欧美日韩精品| 国产精品久久久久久久久久99| 国产欧美久久久久久| 久久久久久久久久国产精品| 国产成人久久久精品一区| 97久久精品人人澡人人爽缅北| 这里只有精品在线播放| 久久精品中文字幕一区| 欧美激情视频在线免费观看 欧美视频免费一| 欧美最猛性xxxx| 中文字幕欧美日韩va免费视频| 日韩中文字幕网址| 精品久久久久久久久久久久| 国产精品久久久久久婷婷天堂| 国产精品69精品一区二区三区| 成人午夜在线视频一区| 777午夜精品福利在线观看| 久久视频这里只有精品| 在线精品91av| 欧美激情视频一区二区三区不卡| 成人精品一区二区三区电影黑人| 国产人妖伪娘一区91| 国产精品对白刺激| 亚洲欧美成人精品| 日本精品久久久| 色噜噜狠狠狠综合曰曰曰| 亚洲第一色在线| 国产精品精品视频一区二区三区| 中文字幕综合在线| 欧美怡春院一区二区三区| 亚洲第一免费播放区| 久久久久久久久久久国产| 久久久久久网址| 日韩av综合网站| 国产精品女人网站| 丝袜亚洲欧美日韩综合| 国产精品爱啪在线线免费观看| 中文字幕日本欧美| 国产日韩精品视频| 成人春色激情网| 精品日韩美女的视频高清| 亚洲激情免费观看| 日韩av免费看网站| 国产精品爽黄69天堂a| 国产精品www色诱视频| 国产一区二区三区在线观看视频| 精品国内自产拍在线观看| 伊人亚洲福利一区二区三区| 久久久女人电视剧免费播放下载| 亚洲区bt下载| 欧美国产第一页| 午夜精品在线视频| 国内揄拍国内精品少妇国语| 国产在线一区二区三区| 欧美精品久久久久a| 高跟丝袜一区二区三区| 欧美大尺度电影在线观看| 欧美成人精品在线视频| 91精品久久久久久久久中文字幕| 精品久久久久久中文字幕一区奶水| 亚洲精品自在久久| 日韩精品一二三四区| 国产精品99久久久久久www| 91九色国产在线| 国产a∨精品一区二区三区不卡| 国产美女精彩久久| 亚洲欧美在线免费观看| 国产成人免费av电影| 欧美xxxx18性欧美| 日韩精品在线免费播放| 少妇高潮久久久久久潘金莲| 91丨九色丨国产在线| 丝袜亚洲欧美日韩综合| 欧美另类在线播放| 欧美黑人性猛交| 国内免费精品永久在线视频| 亚洲色图国产精品| 97超碰色婷婷| 97久久精品在线| 免费av在线一区| 久久人体大胆视频| 亚洲国产又黄又爽女人高潮的| 亚洲精品不卡在线| 97国产一区二区精品久久呦| 大胆欧美人体视频| 午夜精品视频在线| 欧美日本啪啪无遮挡网站|