亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

學習記錄:python糗百爬蟲

2019-11-11 07:48:29
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.cnblogs.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久青草精品视频免费观看| 亚洲精品国产精品久久清纯直播| 亚洲一区美女视频在线观看免费| 国产精品视频网址| 国产精品视频大全| 91国偷自产一区二区三区的观看方式| 在线性视频日韩欧美| 97在线免费观看| 日韩成人性视频| 国产婷婷成人久久av免费高清| 亚洲欧美制服另类日韩| 一区二区国产精品视频| 国产精品亚洲欧美导航| 亚洲成人av中文字幕| 久久久人成影片一区二区三区观看| 秋霞av国产精品一区| 欧美精品videossex性护士| 国产91精品久久久久久| 精品人伦一区二区三区蜜桃网站| 欧美wwwwww| 亚洲国产精品久久久久秋霞蜜臀| 欧美大肥婆大肥bbbbb| 午夜精品视频在线| 欧美激情精品久久久久久蜜臀| 亚洲无线码在线一区观看| 久久久久国产精品一区| 久久成人一区二区| 国产精品成人一区二区三区吃奶| 亚洲va欧美va国产综合久久| 成人做爽爽免费视频| 韩国福利视频一区| 国产精品男人的天堂| 麻豆一区二区在线观看| 中文字幕亚洲自拍| 欧美亚洲午夜视频在线观看| 538国产精品一区二区免费视频| 中文字幕欧美精品在线| 97精品在线观看| 久久久精品免费视频| 性欧美xxxx视频在线观看| 亚洲欧洲激情在线| 欧美日韩日本国产| 久久久91精品国产一区不卡| 欧美午夜视频在线观看| 国产欧美日韩精品在线观看| 欧洲美女免费图片一区| 国产欧美一区二区| 国产亚洲欧美另类中文| 国产精品高清免费在线观看| 国产在线一区二区三区| 国产区精品在线观看| 欧美性xxxx极品高清hd直播| 国产婷婷97碰碰久久人人蜜臀| 欧美色视频日本版| 国产91精品黑色丝袜高跟鞋| 九九九久久国产免费| 欧美性xxxxxx| 日韩成人在线观看| 91日韩在线播放| 欧美激情国产高清| 欧美大片大片在线播放| 国产精品偷伦视频免费观看国产| 国产亚洲精品美女| 国产精品久久77777| 日本韩国在线不卡| 亚洲天堂男人的天堂| 国产精品久久久久aaaa九色| 琪琪亚洲精品午夜在线| 成人精品一区二区三区电影免费| 91豆花精品一区| 亚洲最新av网址| 国产欧美日韩综合精品| 国产aaa精品| 性欧美暴力猛交69hd| 亚洲一区二区日本| 青青久久aⅴ北条麻妃| 91欧美精品成人综合在线观看| 68精品久久久久久欧美| 91在线播放国产| 久久精品国产99国产精品澳门| 欧美视频在线免费| 91精品91久久久久久| 欧美日本中文字幕| 菠萝蜜影院一区二区免费| 色综合91久久精品中文字幕| 国产精品美女www爽爽爽视频| 日韩欧美在线免费观看| 国产婷婷成人久久av免费高清| 国产在线98福利播放视频| 亚洲图中文字幕| 成人激情免费在线| 午夜精品久久久久久久男人的天堂| 国产精品678| 欧美性猛交xxxx免费看漫画| 国产精品久久久久久久久久久久久久| 国产欧美精品xxxx另类| 日本久久久a级免费| 国产精品夫妻激情| 久久久亚洲影院| 久久男人资源视频| 久久99国产精品自在自在app| 国产91ⅴ在线精品免费观看| 亚洲性猛交xxxxwww| 亚洲成人精品视频在线观看| 最近2019中文字幕第三页视频| 亚洲va码欧洲m码| 久热在线中文字幕色999舞| 亚洲欧美中文字幕| 51久久精品夜色国产麻豆| 91在线高清视频| 欧美性生交大片免费| 日韩av在线一区二区| 91免费综合在线| 亚洲人成绝费网站色www| 久久国产精品久久久久| 97在线免费观看视频| 国产精品av在线| 最新日韩中文字幕| 亚洲精品视频中文字幕| 亚洲精品天天看| 国产亚洲日本欧美韩国| 中文字幕av一区二区三区谷原希美| 亚洲大胆人体在线| 亚洲精品美女在线观看播放| 国产精品99久久久久久人| 亚洲小视频在线| 日韩av影院在线观看| 欧美黄色小视频| 亚洲午夜性刺激影院| 亚洲电影在线看| 日韩中文在线不卡| 精品久久久久国产| 精品中文字幕久久久久久| 日韩黄色av网站| 福利一区视频在线观看| 色久欧美在线视频观看| 久久久久久久久久久免费| 主播福利视频一区| 一本大道久久加勒比香蕉| 日韩亚洲欧美中文高清在线| 欧美—级a级欧美特级ar全黄| 久久在线精品视频| 日韩美女在线观看一区| 久久夜色精品国产亚洲aⅴ| 国产精品视频久久久| 高清一区二区三区四区五区| 日韩欧美国产中文字幕| 正在播放国产一区| 国产精品一久久香蕉国产线看观看| 久久精品视频中文字幕| 久久亚洲成人精品| 国产精品久久久久久久一区探花| 庆余年2免费日韩剧观看大牛| 日韩电影免费观看中文字幕| 日韩欧美在线字幕| 韩日欧美一区二区| 国产日韩欧美自拍| 亚洲www永久成人夜色| 欧美肥婆姓交大片| 国产成人在线一区二区| 最近中文字幕mv在线一区二区三区四区| 亚洲 日韩 国产第一| 亚洲区一区二区| 亚洲free性xxxx护士hd|