亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 開發 > Python > 正文

三個python爬蟲項目實例代碼

2024-09-09 19:03:29
字體:
來源:轉載
供稿:網友

這篇文章主要介紹了三個python爬蟲項目實例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

爬取內涵段子:

#encoding=utf-8import urllib2import reclass neihanba():  def spider(self):    '''    爬蟲的主調度器    '''    isflow=True#判斷是否進行下一頁    page=1    while isflow:      url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"      html=self.load(url)      self.deal(html,page)      panduan=raw_input("是否繼續(y/n)!")      if panduan=="y":        isflow=True        page+=1      else:        isflow=False  def load(self,url):    '''    針對url地址進行全部爬去    :param url: url地址    :return: 返回爬去的內容    '''    header = {      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"    }    request = urllib2.Request(url, headers=header)    response = urllib2.urlopen(request)    html = response.read()    return html  def deal(self,html,page):    '''    對之前爬去的內容進行正則匹配,匹配出標題和正文內容    :param html:之前爬去的內容    :param page: 正在爬去的頁碼    '''    parrten=re.compile('<li class="piclist/d+">(.*?)</li>',re.S)    titleList=parrten.findall(html)    for title in titleList:      parrten1=re.compile('<a href="/article//d+.html" rel="external nofollow" >(.*)</a>')      ti1=parrten1.findall(title)      parrten2=re.compile('<div class="f18 mb20">(.*?)</div>',re.S)      til2=parrten2.findall(title)      for t in ti1:        tr=t.replace("<b>","").replace("</b>","")        self.writeData(tr,page)      for t in til2:        tr=t.replace("<p>","").replace("</p>","").replace("<br>","").replace("<br />","").replace("&ldquo","/"").replace("&rdquo","/"")        self.writeData(tr,page)  def writeData(self,context,page):    '''    將最終爬去的內容寫入文件中    :param context: 匹配好的內容    :param page: 當前爬去的頁碼數    '''    fileName = "di" + str(page) + "yehtml.txt"    with open(fileName, "a") as file:      file.writelines(context + "/n")if __name__ == '__main__':  n=neihanba()  n.spider()

爬取智聯:

#encoding=utf-8import urllibimport urllib2import reclass zhiLian():  def spider(self,position,workPlace):    '''    爬蟲的主調度器    :param position: 職位    :param workPlace: 工作地點    '''    url="http://sou.zhaopin.com/jobs/searchresult.ashx?"    url+=urllib.urlencode({"jl":workPlace})    url+="&"    url+=urllib.urlencode({"kw":position})    isflow=True#是否進行下一頁的爬去    page=1    while isflow:      url+="&"+str(page)      html=self.load(url)      self.deal1(html,page)      panduan = raw_input("是否繼續爬蟲下一頁(y/n)!")      if panduan == "y":        isflow = True        page += 1      else:        isflow = False  def load(self,url):    '''    針對url地址進行全部爬去    :param url: url地址    :return: 返回爬去的內容    '''    header = {      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"    }    request = urllib2.Request(url, headers=header)    response = urllib2.urlopen(request)    html = response.read()    return html  def deal1(self,html,page):    '''    對之前爬去的內容進行正則匹配,匹配職位所對應的鏈接    :param html:之前爬去的內容    :param page: 正在爬去的頁碼    '''    parrten=re.compile('<a/s+/s+par="ssidkey=y&ss=/d+&ff=/d+&sg=/w+&so=/d+"/s+href="(.*?)" rel="external nofollow" target="_blank">.*?</a>',re.S)    til=parrten.findall(html)#爬去鏈接    for t in til:      self.deal2(t,page)  def deal2(self,t,page):    '''    進行二次爬蟲,然后在新的頁面中對公司、薪資、工作經驗進行匹配    :param t: url地址    :param page: 當前匹配的頁數    '''    html=self.load(t)#返回二次爬蟲的內容    parrten1=re.compile('<a/s+onclick=".*?"/s+href=".*?" rel="external nofollow" /s+target="_blank">(.*?)/s+.*?<img/s+class=".*?"/s+src=".*?"/s+border="/d+"/s+vinfo=".*?"></a>',re.S)    parrten2=re.compile('<li><span>職位月薪:</span><strong>(.*?) <a.*?>.*?</a></strong></li>',re.S)    parrent3=re.compile('<li><span>工作經驗:</span><strong>(.*?)</strong></li>',re.S)    til1=parrten1.findall(html)    til2=parrten2.findall(html)    til3=parrent3.findall(html)    str=""    for t in til1:      t=t.replace('<img title="專屬頁面" src="http://img03.zhaopin.cn/2012/img/jobs/icon.png" border="0" />',"")      str+=t      str+="/t"    for t in til2:      str+=t      str += "/t"    for t in til3:      str+=t    self.writeData(str,page)  def writeData(self,context,page):    '''    將最終爬去的內容寫入文件中    :param context: 匹配好的內容     :param page: 當前爬去的頁碼數    '''    fileName = "di" + str(page) + "yehtml.txt"    with open(fileName, "a") as file:      file.writelines(context + "/n")if __name__ == '__main__':  position=raw_input("請輸入職位:")  workPlace=raw_input("請輸入工作地點:")  z=zhiLian()  z.spider(position,workPlace)
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产精品久久久久久久美男| 国产精品美女免费| 91久久精品国产| 色老头一区二区三区在线观看| 黄色成人av在线| 91九色单男在线观看| 国产精品丝袜久久久久久不卡| 欧亚精品在线观看| 欧美成人免费全部观看天天性色| 久久视频免费观看| 精品视频偷偷看在线观看| 国产美女久久精品香蕉69| 日韩av在线直播| 日韩精品中文在线观看| 欧美精品少妇videofree| 国产精品欧美日韩久久| 久色乳综合思思在线视频| 中文字幕亚洲激情| 久久综合久久八八| 国产91在线视频| 91精品国产高清| 久久亚洲春色中文字幕| 热久久99这里有精品| 在线播放国产一区二区三区| 久久久噜噜噜久久| 国产精品久久综合av爱欲tv| 91中文字幕一区| 亚洲情综合五月天| 日韩欧美视频一区二区三区| 茄子视频成人在线| 精品久久久久久久久久久久久| 91精品久久久久| 亚洲国产精品成人一区二区| 91av在线视频观看| 国内精品小视频在线观看| 欧美性高潮在线| 久久精品91久久久久久再现| 亚洲女人被黑人巨大进入| 亚洲精品福利资源站| 伊人久久久久久久久久久久久| 亚洲欧美国产一区二区三区| 成人字幕网zmw| 色综合久久88色综合天天看泰| 高跟丝袜欧美一区| 亚洲图片欧美日产| 韩国一区二区电影| 亚洲天堂av在线免费观看| 2018中文字幕一区二区三区| 91精品免费久久久久久久久| 九九视频直播综合网| 精品国产一区二区三区久久久| 中文字幕久热精品视频在线| 亚洲直播在线一区| 国产精品99久久99久久久二8| 久久综合五月天| 国产精品久久久精品| 国产专区精品视频| 精品国产一区二区在线| 久久91超碰青草是什么| 日韩精品免费在线视频观看| 久久91亚洲精品中文字幕奶水| 亚洲综合在线小说| 日韩视频在线一区| 国产精品视频一区二区高潮| 97久久精品人搡人人玩| 亚洲第一区中文99精品| 久久国产精品视频| 隔壁老王国产在线精品| 日韩中文在线中文网三级| 国内揄拍国内精品少妇国语| 色视频www在线播放国产成人| 国产成人精品一区二区三区| 欧美在线不卡区| 精品视频—区二区三区免费| 亚洲欧美在线x视频| 欧美裸体xxxx极品少妇软件| 狠狠操狠狠色综合网| 亚洲综合自拍一区| 国产乱肥老妇国产一区二| 国产精品夜间视频香蕉| 日本国产精品视频| 狠狠做深爱婷婷久久综合一区| 欧美色道久久88综合亚洲精品| 亚洲欧洲免费视频| 日韩电影大片中文字幕| 欧美日韩激情视频8区| 黑人精品xxx一区| 日韩中文字幕网| 国内精品在线一区| 亚洲欧洲xxxx| 久久91亚洲精品中文字幕| 亚洲天堂色网站| 欧美专区在线观看| 欧美午夜片欧美片在线观看| 亚洲欧美制服中文字幕| 亚洲欧美日韩精品| 性欧美在线看片a免费观看| 欧美日韩午夜激情| 精品日韩美女的视频高清| 国产精品6699| 成人在线中文字幕| 91精品国产成人| 欧美一级片一区| 成人免费在线视频网站| 日韩av免费一区| 国产精品av免费在线观看| 日韩精品有码在线观看| 国产精品高潮呻吟久久av黑人| 国产精品亚洲一区二区三区| 色青青草原桃花久久综合| 精品综合久久久久久97| 麻豆乱码国产一区二区三区| 最近2019年日本中文免费字幕| 亚洲深夜福利网站| 欧美超级乱淫片喷水| 4438全国亚洲精品在线观看视频| 欧美做爰性生交视频| 欧美性理论片在线观看片免费| 不用播放器成人网| 欧美人与物videos| 成人免费自拍视频| 亚洲精品自拍第一页| 久久精品国产久精国产一老狼| 成人激情视频网| 国产亚洲在线播放| 成人精品久久久| 亚洲欧洲中文天堂| 成人黄色短视频在线观看| 日韩av电影手机在线| 日本精品一区二区三区在线播放视频| 欧美老女人性生活| 日本精品久久中文字幕佐佐木| www.亚洲免费视频| 日韩激情在线视频| 欧美日韩在线视频观看| 亚洲视频在线视频| 国色天香2019中文字幕在线观看| 91精品国产综合久久男男| 亚洲国产日韩欧美综合久久| 国产免费一区二区三区在线能观看| 亚洲丁香婷深爱综合| 综合久久五月天| 国产男女猛烈无遮挡91| 国产精品一区二区久久| 欧美激情videoshd| 成人性教育视频在线观看| 日韩性生活视频| 亚洲白拍色综合图区| 欧美黄色成人网| 久久久久久久久久婷婷| 欧美日韩国产精品专区| 色婷婷久久一区二区| 欧美丝袜美女中出在线| 日韩欧美精品中文字幕| 中文字幕自拍vr一区二区三区| 亚洲毛茸茸少妇高潮呻吟| 尤物精品国产第一福利三区| 午夜欧美大片免费观看| 国产日产欧美精品| 国产精品三级久久久久久电影| 在线中文字幕日韩| 日韩一二三在线视频播| 91精品国产高清久久久久久| 久久久亚洲国产天美传媒修理工|