亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

學習記錄:python糗百爬蟲

2019-11-14 09:19:54
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.49028c.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
26uuu亚洲伊人春色| 久久综合久久八八| 国产欧美日韩精品在线观看| 国产自产女人91一区在线观看| 欧美xxxx18国产| 日韩欧美在线网址| 97香蕉超级碰碰久久免费的优势| 亚洲日本中文字幕免费在线不卡| 4p变态网欧美系列| 久久精品这里热有精品| 欧美国产日韩中文字幕在线| 神马久久桃色视频| 国产午夜精品全部视频播放| 在线播放亚洲激情| 97av在线视频| 欧美电影免费观看高清完整| 精品久久久久久中文字幕大豆网| 色综合影院在线| 精品日韩美女的视频高清| 久久综合久久美利坚合众国| 成人免费福利在线| 亚洲欧美日韩国产中文| 午夜精品一区二区三区av| 中文字幕国内精品| 伊人伊人伊人久久| 国产一区二区三区免费视频| 亚洲影院高清在线| 欧美高跟鞋交xxxxxhd| 亚洲成av人片在线观看香蕉| 日韩精品视频免费专区在线播放| 成人黄色激情网| 亚洲天堂一区二区三区| 国产精品普通话| 久久久久亚洲精品成人网小说| 在线观看日韩专区| 国产精品一区二区3区| 亚洲精品小视频| 国产亚洲精品久久久| 日韩女优人人人人射在线视频| 中文字幕九色91在线| 欧美精品videos| 国产欧美精品一区二区| 在线看日韩av| 黑人巨大精品欧美一区二区三区| 亚洲欧美一区二区三区情侣bbw| 色综合色综合网色综合| 欧美孕妇孕交黑巨大网站| 亚洲欧洲高清在线| 日韩黄色高清视频| 日本亚洲欧洲色| 欧美电影电视剧在线观看| 精品久久久久久久久久ntr影视| 国产一区二区三区视频免费| 国产精品美女呻吟| 亚洲一级一级97网| 国产一区二区三区在线视频| 国产精品亚洲网站| 国内外成人免费激情在线视频网站| 51ⅴ精品国产91久久久久久| 高潮白浆女日韩av免费看| 日韩最新免费不卡| 中文字幕亚洲精品| 精品久久久久久久久久久久久久| 日本久久91av| 国产午夜精品理论片a级探花| 亚洲成年人影院在线| 欧美一区二区三区四区在线| 久热精品视频在线观看| 欧美综合在线观看| 国产欧美久久久久久| 欧美激情免费在线| 国产日韩欧美在线播放| 久久久99久久精品女同性| 久久久国产在线视频| 国产精品视频专区| 黑丝美女久久久| 欧美精品电影免费在线观看| 78m国产成人精品视频| 欧美日韩高清在线观看| 国产精品啪视频| 国产精品久久久久久久久粉嫩av| 欧美人成在线视频| 亚洲欧美在线免费观看| 亚洲免费av片| 少妇高潮久久久久久潘金莲| 欧美高清videos高潮hd| 亚洲国产精品va在线看黑人| 日韩成人中文字幕在线观看| 97精品国产91久久久久久| 91九色单男在线观看| 亚洲欧洲在线观看| 欧洲中文字幕国产精品| 亚洲最大中文字幕| 欧美日韩中国免费专区在线看| 韩日欧美一区二区| 亚洲免费成人av电影| 亚州精品天堂中文字幕| 91国产一区在线| 中文字幕亚洲字幕| 欧美交受高潮1| 欧美国产乱视频| 亚洲精品国产电影| 91久久在线播放| 中文字幕亚洲专区| 91亚洲国产精品| 亚洲性夜色噜噜噜7777| 久久午夜a级毛片| 欧美精品中文字幕一区| 九九精品视频在线观看| 亚洲成人a级网| 久久精品一区中文字幕| 国产精品视频1区| 正在播放欧美一区| 欲色天天网综合久久| 亚洲一区二区三区sesese| 欧美色欧美亚洲高清在线视频| 黑人精品xxx一区一二区| 国产精品一区二区久久精品| 日韩在线播放av| 成人黄色片网站| 日韩成人黄色av| 久久天天躁夜夜躁狠狠躁2022| 亚洲欧美日本伦理| 一色桃子一区二区| 久热精品视频在线观看| 国产精品国产福利国产秒拍| 深夜福利亚洲导航| 91精品国产777在线观看| 欧美老女人xx| 欧美做受高潮1| 一区二区欧美日韩视频| 欧美日韩美女视频| 日韩亚洲欧美中文在线| 97成人精品视频在线观看| 91亚洲国产精品| 性日韩欧美在线视频| 亚洲www在线| 国产视频亚洲视频| 国产亚洲美女精品久久久| 国产日韩精品在线观看| 欧美日韩一区二区在线播放| 国产成人一区三区| 亚洲精品永久免费| 国产精品久在线观看| 国产精品热视频| 欧美福利视频在线观看| 中文字幕亚洲图片| 久久精品视频播放| 国产成人综合一区二区三区| 亚洲一区二区三区四区视频| 日韩中文在线不卡| 中文字幕视频一区二区在线有码| 欧美不卡视频一区发布| 91成人免费观看网站| 一区二区欧美久久| 欧美丝袜一区二区| 欧美成人网在线| 视频一区视频二区国产精品| 国产va免费精品高清在线观看| 在线播放国产一区中文字幕剧情欧美| 国产三级精品网站| 亚洲最大激情中文字幕| 亚洲无亚洲人成网站77777| 91高清视频免费观看|