亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

學習記錄:python糗百爬蟲

2019-11-14 09:07:35
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.49028c.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
中文字幕一区二区三区电影| 国产精品一区二区av影院萌芽| 欧美成人全部免费| 亚洲精品中文字幕av| 国产精品91在线| 国产精品专区第二| 亚洲国产97在线精品一区| 日本久久久久亚洲中字幕| 久久中文久久字幕| 欧美在线观看网站| 亚洲欧美另类在线观看| 亚洲福利影片在线| 久久久精品国产| 蜜臀久久99精品久久久久久宅男| 日本亚洲欧美成人| 欧美精品免费在线观看| 亚洲国产精品va在线看黑人动漫| 欧美精品成人在线| 亚洲精品有码在线| 亚洲系列中文字幕| 欧美裸体xxxx极品少妇软件| 亚洲欧洲在线视频| 91精品国产91久久久久久久久| 亚洲国产古装精品网站| 国产91色在线| 成年无码av片在线| 欧美疯狂xxxx大交乱88av| 日韩中文字幕精品视频| 久久艹在线视频| 97色在线观看免费视频| 亚洲综合中文字幕在线观看| 国产精品久久久精品| 欧美成人亚洲成人日韩成人| 精品国产精品自拍| 日韩网站免费观看高清| 国产精品入口免费视| 欧美精品手机在线| 91精品视频免费看| 欧美日韩在线视频观看| 一区二区日韩精品| 亚洲欧美国内爽妇网| 92看片淫黄大片看国产片| 欧美性受xxx| 久久久精品一区| 欧美日韩精品在线视频| 亚洲高清在线观看| 97国产成人精品视频| 欧美激情女人20p| 亚洲国产成人精品女人久久久| 国产精品一区专区欧美日韩| 亚洲白拍色综合图区| 成人有码视频在线播放| 97在线精品视频| 亚洲人成在线一二| 97视频在线播放| 国产激情久久久| 亚洲成年人影院在线| 韩国精品久久久999| 在线视频免费一区二区| 国产专区精品视频| 国产999精品视频| 欧美在线精品免播放器视频| 黄色一区二区三区| 亚洲欧美日韩爽爽影院| 波霸ol色综合久久| 国产精品自产拍在线观看| 亚洲国产精品热久久| www国产91| 国产精品久久久久久久午夜| 日本久久久久久久久久久| 欧美国产日韩一区二区三区| 国外成人在线直播| 57pao精品| 国语自产精品视频在线看一大j8| 美日韩丰满少妇在线观看| 欧美国产视频日韩| 国产日韩在线精品av| 亚洲欧美精品中文字幕在线| 91av免费观看91av精品在线| 国产精品中文字幕在线观看| 亚洲精品一区二区三区不| 插插插亚洲综合网| 欧美日韩在线影院| 在线观看欧美日韩国产| 国产精品永久免费视频| 26uuu久久噜噜噜噜| 日韩欧美国产视频| 欧美午夜精品久久久久久人妖| 欧洲亚洲免费视频| 久久久久久久亚洲精品| 久久久精品国产| 96精品久久久久中文字幕| 亚洲电影免费在线观看| 激情久久av一区av二区av三区| 色悠久久久久综合先锋影音下载| 国产精品2018| 欧美日韩国产成人在线| 久久久久成人网| 欧美精品少妇videofree| 欧美激情综合亚洲一二区| 黑人巨大精品欧美一区免费视频| 国产精品美女久久久免费| 96精品久久久久中文字幕| 亚洲精品自拍视频| 国产精品成人播放| 国产精品久久久久久久久免费| 成人午夜高潮视频| 欧美成人精品不卡视频在线观看| 97成人精品区在线播放| 国产裸体写真av一区二区| 久久男人的天堂| 日本久久精品视频| 中文字幕亚洲一区二区三区五十路| 一区二区三区无码高清视频| 国产欧美日韩中文字幕| 日韩欧美成人区| 亚洲精品美女免费| 伊人久久综合97精品| 欧美一级电影免费在线观看| 国产精品久久久久高潮| 日韩精品在线视频观看| 日韩在线欧美在线国产在线| 国产极品精品在线观看| 国产亚洲欧美另类中文| 亚洲美女免费精品视频在线观看| 精品中文字幕在线观看| 国产女人精品视频| 亚洲人av在线影院| 97精品欧美一区二区三区| 欧美另类第一页| 97在线观看免费| 日本精品一区二区三区在线播放视频| 国产精品久久久久久中文字| 国产精品午夜国产小视频| 午夜精品一区二区三区av| 国产精品高潮在线| 欧美在线精品免播放器视频| 色青青草原桃花久久综合| 欧美成人精品影院| 亚洲精选中文字幕| 中文字幕在线亚洲| 亚洲欧美日韩一区二区三区在线| 亚洲成色777777女色窝| 欧美精品少妇videofree| 欧美成人中文字幕| 精品中文字幕乱| 人人澡人人澡人人看欧美| 久久久亚洲欧洲日产国码aⅴ| 亚洲黄页视频免费观看| 亚洲免费伊人电影在线观看av| 91精品国产乱码久久久久久久久| 欧美美女15p| 成人夜晚看av| 国产精品视频久久久| 亚洲综合日韩在线| 久久久精品影院| 国产精品男人的天堂| 少妇av一区二区三区| 国产精品久久久久久av下载红粉| 欧美一区三区三区高中清蜜桃| 国产一级揄自揄精品视频| 美女少妇精品视频| 国产亚洲精品一区二区| 欧美一级大片在线观看|