亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

學習記錄:python糗百爬蟲

2019-11-14 10:01:39
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.49028c.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产精品一久久香蕉国产线看观看| 一区二区欧美亚洲| 欧美日韩免费在线| 97在线日本国产| 精品国产一区久久久| 亚洲高清不卡av| 欧美大片免费观看在线观看网站推荐| 亚洲日韩欧美视频一区| 久久99热精品| 久久久亚洲国产| 国产狼人综合免费视频| 欧美午夜精品久久久久久人妖| 日本精品久久久久久久| 精品福利视频导航| 51视频国产精品一区二区| 97av在线视频| 欧美精品少妇videofree| 久久这里只有精品视频首页| 91九色视频在线| 国内精品久久久久久久| 国产精品高精视频免费| 久久视频在线视频| 欧美专区在线播放| 亚洲欧美国产高清va在线播| 精品国内亚洲在观看18黄| 狠狠色香婷婷久久亚洲精品| 亚洲成人免费网站| 国产精品久久久久久久久久久不卡| 亚洲黄页网在线观看| 精品久久久一区| 欧美www在线| 久久视频免费在线播放| 国产亚洲综合久久| 日韩中文在线视频| 亚洲欧美日韩爽爽影院| 国产精品成人观看视频国产奇米| 中文字幕日韩欧美在线| 69av视频在线播放| 91av在线视频观看| 国产日韩欧美在线播放| 欧美性开放视频| 黄色一区二区在线观看| 久久91超碰青草是什么| 国模gogo一区二区大胆私拍| 国产精品久久久久免费a∨| 亚洲男人天堂久| 欧美网站在线观看| 久久久在线视频| 91美女片黄在线观| 精品高清美女精品国产区| 日韩中文字幕网| 亚洲人成在线免费观看| www.xxxx欧美| 亚洲美女久久久| 成人免费黄色网| 97在线视频一区| 亚洲国产欧美久久| 成人观看高清在线观看免费| 国产欧美一区二区三区四区| 久热精品在线视频| 精品视频偷偷看在线观看| 91香蕉嫩草神马影院在线观看| 国产精品日韩欧美大师| 亚洲国产精品yw在线观看| 久久99视频免费| 久久久久久成人精品| 91亚洲精华国产精华| 日本久久91av| 国产色综合天天综合网| 国内免费久久久久久久久久久| 国产精品igao视频| 日本中文字幕成人| 欧美刺激性大交免费视频| 日本中文字幕久久看| 1769国产精品| 久久精品成人一区二区三区| 91亚洲午夜在线| 久久久久久久999精品视频| 国产一区二区激情| 国产免费一区二区三区在线观看| 国产亚洲精品久久久久久777| 这里只有精品久久| 国模精品视频一区二区| 色偷偷偷亚洲综合网另类| 亚洲激情第一页| 日韩大片免费观看视频播放| 欧美在线视频免费播放| 欧美日韩国产区| 成人精品久久一区二区三区| 97在线免费视频| 欧美最猛黑人xxxx黑人猛叫黄| 欧美剧在线观看| 欧美日韩综合视频| 中文.日本.精品| 久久久久久久91| 欧美理论电影网| 国产精品伦子伦免费视频| 91视频国产精品| 成人在线激情视频| 欧美诱惑福利视频| 色妞一区二区三区| 亚洲国产成人一区| 亚洲精品aⅴ中文字幕乱码| 国产日韩欧美视频| 91国偷自产一区二区三区的观看方式| 91精品视频播放| 亚洲18私人小影院| 国产999在线| 亚洲精品一区二三区不卡| 91精品久久久久久综合乱菊| 国产精品入口免费视频一| 久久的精品视频| 欧美乱妇高清无乱码| 国产日韩在线精品av| 欧美一区二区.| 国产精品福利网| 成人看片人aa| 欧美日韩精品中文字幕| 美日韩丰满少妇在线观看| 国产精品海角社区在线观看| 日韩av免费网站| 亚洲国产精品yw在线观看| 91精品国产91久久久久久| 欧美一级大片在线免费观看| 国产精品高清在线| 大胆人体色综合| 欧美色视频日本高清在线观看| 91在线免费网站| 亚洲最大成人在线| 成人免费观看49www在线观看| 另类美女黄大片| 欧美贵妇videos办公室| 大胆欧美人体视频| 国产精品热视频| 国产一区二区黑人欧美xxxx| 国产日韩精品入口| 日韩欧美成人区| 久久久欧美一区二区| 91精品国产91久久久久久最新| 国产不卡视频在线| 国内精品伊人久久| 久久福利视频导航| 91免费福利视频| 日韩成人在线视频| 九九热视频这里只有精品| 国产精品色悠悠| 亚洲一区二区三区四区视频| 中文在线不卡视频| 欧美在线视频观看| 亚洲男人天堂网站| 成人av在线亚洲| 欧美日韩中文字幕在线| 国产精品视频久久| 日韩成人在线观看| 国产精品女主播视频| 欧美激情一级精品国产| 久久偷看各类女兵18女厕嘘嘘| 夜夜躁日日躁狠狠久久88av| 国产日韩精品视频| 国产亚洲精品综合一区91| 亚洲成年人在线播放| 亚洲免费视频在线观看| 亚洲www在线| 亚洲性av网站|