亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

Python實現爬蟲從網絡上下載文檔的實例代碼

2020-02-15 21:49:26
字體:
來源:轉載
供稿:網友

最近在學習Python,自然接觸到了爬蟲,寫了一個小型爬蟲軟件,從初始Url解析網頁,使用正則獲取待爬取鏈接,使用beautifulsoup解析獲取文本,使用自己寫的輸出器可以將文本輸出保存,具體代碼如下:

Spider_main.py

# coding:utf8from baike_spider import url_manager, html_downloader, html_parser, html_outputerclass SpiderMain(object):  def __init__(self):    self.urls = url_manager.UrlManager()    self.downloader = html_downloader.HtmlDownloader()    self.parser = html_parser.HtmlParser()    self.outputer = html_outputer.HtmlOutputer()  def craw(self, root_url):    count = 1    self.urls.add_new_url(root_url)    while self.urls.has_new_url():      print("self.urls.has %s" % self.urls.new_urls)      try:        new_url = self.urls.get_new_url()        print("craw %d : %s"%(count, new_url))        html_cont = self.downloader.download(new_url)        new_urls, new_data = self.parser.parse(new_url, html_cont)        self.urls.add_new_urls(new_urls)        self.outputer.collect_data(new_data)        if count == 1000:          break        count = count + 1      except:        print("craw failed")    self.outputer.output_html()    self.outputer.output_txt()if __name__ == '__main__':  root_url = "http://www.shushu8.com/jiangnan/longzu2qianzhuan/1"  obj_spider = SpiderMain()  obj_spider.craw(root_url)

url_manager.py

class UrlManager(object):  def __init__(self):    self.new_urls = set()    self.old_urls = set()  def add_new_url(self, url):    print(url)    if url is None:      return    if url not in self.new_urls and url not in self.old_urls:      self.new_urls.add(url)  def has_new_url(self):    return len(self.new_urls) != 0  def get_new_url(self):    new_url = self.new_urls.pop()    self.old_urls.add(new_url)    # print('new url is %s' % new_url)    return new_url  def add_new_urls(self, urls):    print("add_new_urls %s" % urls)    if urls is None or len(urls) == 0:      return    for url in urls:      self.add_new_url(url)      print(url)

html_parser.py

import reimport urllib.parsefrom bs4 import BeautifulSoupclass HtmlParser(object):  def parse(self, page_url, html_cont):    if page_url is None or html_cont is None:      return    soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')    new_urls = self._get_new_urls(page_url, soup)    print("parse new_urls %s" % new_urls)    new_data = self._get_new_data(page_url, soup)    return new_urls, new_data  def _get_new_data(self, page_url, soup):    res_data = {}    res_data['url'] = page_url    print(page_url)    title_node = soup.find(class_="title").find("h1")    print(title_node.get_text())    res_data['title'] = title_node.get_text()    print("_get_new_data")    summary_node = soup.find('pre')    print(summary_node.get_text())    res_data['summary'] = summary_node.get_text()    return res_data  def _get_new_urls(self, page_url, soup):    new_urls = set()    links = soup.find_all('a', href=re.compile(r"/jiangnan/"))    print(links)    for link in links:      new_url = link['href']      new_full_url = urllib.parse.urljoin(page_url, new_url)      new_urls.add(new_full_url)      # print(new_full_url)    return new_urls            
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
色婷婷av一区二区三区在线观看| 国产丝袜精品第一页| 国产日韩欧美日韩大片| 国外成人在线直播| 51久久精品夜色国产麻豆| 不卡av在线播放| 秋霞成人午夜鲁丝一区二区三区| 粉嫩老牛aⅴ一区二区三区| 亚洲嫩模很污视频| 成人网在线免费观看| 欧美成人国产va精品日本一级| 欧美激情在线观看视频| 国产亚洲精品91在线| 亚洲欧美国产精品| 亚洲国产精彩中文乱码av在线播放| 亚洲精品不卡在线| 国精产品一区一区三区有限在线| 久久免费视频网站| 国产精品久久久久久久app| 成人妇女免费播放久久久| 精品成人69xx.xyz| 最新91在线视频| 热门国产精品亚洲第一区在线| 国产精品福利无圣光在线一区| 国产免费一区二区三区在线观看| 欧美—级高清免费播放| 综合av色偷偷网| y97精品国产97久久久久久| 97人洗澡人人免费公开视频碰碰碰| 亚洲国产精品va在线看黑人动漫| 亚洲电影免费观看高清完整版在线观看| …久久精品99久久香蕉国产| 精品久久久久国产| 中文字幕亚洲欧美日韩在线不卡| 91tv亚洲精品香蕉国产一区7ujn| 91精品国产沙发| 欧美精品福利在线| 日韩人体视频一二区| xvideos成人免费中文版| 久久成人av网站| 亚洲男人天堂网站| 亚洲美女视频网| 国产成人a亚洲精品| 欧美在线视频在线播放完整版免费观看| 91国内免费在线视频| 亚洲精品一区中文| 久久久欧美精品| 自拍视频国产精品| 中文字幕欧美日韩| 日韩电影免费在线观看| 97视频在线观看成人| 在线电影中文日韩| 亚洲qvod图片区电影| 精品偷拍一区二区三区在线看| 97国产suv精品一区二区62| 色www亚洲国产张柏芝| 国产精品亚洲欧美导航| 国产精品高潮在线| 欧美日韩国产一区中文午夜| 欧美日本啪啪无遮挡网站| 国产精品三级美女白浆呻吟| 少妇av一区二区三区| 午夜精品久久久久久久99热| 97香蕉超级碰碰久久免费软件| 日韩美女av在线| 97在线免费观看| 亚洲va久久久噜噜噜久久天堂| 欧美日韩亚洲一区二| 国产精品色悠悠| 国产成人高清激情视频在线观看| 亚洲国产另类 国产精品国产免费| 亚洲精品久久久久久下一站| 精品无人区太爽高潮在线播放| 国产精品高清免费在线观看| 日韩欧美在线国产| 亚洲黄色在线观看| 亚洲另类激情图| xxx欧美精品| 亚洲第一区中文99精品| 国产精品第二页| 欧美主播福利视频| 国产主播喷水一区二区| 亚洲精品国产综合区久久久久久久| 国产91精品网站| 18久久久久久| 欧美小视频在线| 中文字幕亚洲综合| 亚州成人av在线| 亚洲欧洲在线观看| 国产日韩欧美在线视频观看| 国产成人拍精品视频午夜网站| 国产精品稀缺呦系列在线| 欧美另类69精品久久久久9999| 国产一区二区视频在线观看| 国产精品第一页在线| 久久久久国产精品www| 96sao精品视频在线观看| 亚洲欧美日韩直播| 日韩电视剧在线观看免费网站| 亚洲福利小视频| 亚洲欧美在线第一页| 欧美刺激性大交免费视频| 国产精品日韩在线一区| 亚洲国产精品va在看黑人| 2023亚洲男人天堂| 成人在线免费观看视视频| 久久成人精品电影| 亚洲男人天堂手机在线| 亚洲丁香久久久| 国产日韩欧美自拍| 自拍偷拍亚洲一区| 亚洲国产精品资源| 亚洲一区av在线播放| 中文字幕国内精品| 亚洲乱码国产乱码精品精天堂| 亚洲网站在线播放| 91精品国产综合久久香蕉最新版| 日韩免费电影在线观看| 欧美中文字幕在线视频| 亚洲一区二区三区成人在线视频精品| 一区二区三区视频免费| 国产精品96久久久久久| 国产精品一区二区三区免费视频| 欧美一区二区三区艳史| 国产www精品| 91精品国产自产91精品| 26uuu日韩精品一区二区| 韩国三级日本三级少妇99| 亚洲精品720p| 国产精品免费电影| 国产精品日韩电影| 精品国产91乱高清在线观看| 久久久久999| 中文字幕av一区二区| 97热在线精品视频在线观看| 美女福利视频一区| 国精产品一区一区三区有限在线| 久久精品国产成人| 日韩av在线导航| 美女扒开尿口让男人操亚洲视频网站| 欧美日韩中国免费专区在线看| 91精品国产电影| 久久中文字幕国产| 91精品国产色综合久久不卡98| 97欧美精品一区二区三区| 亚洲性视频网址| 欧美日韩在线观看视频| 欧美理论片在线观看| 欧美一级大胆视频| 久久久精品中文字幕| 久久免费高清视频| 日韩中文在线中文网在线观看| 国产精品激情av电影在线观看| 日本亚洲精品在线观看| 国内免费精品永久在线视频| 午夜精品在线视频| 欧美在线播放视频| 奇米一区二区三区四区久久| 日韩av在线最新| 亚洲国产一区二区三区在线观看| 精品久久久久久中文字幕| 亚洲精品自拍偷拍| 国产精品一香蕉国产线看观看| 亚洲精品一区二区在线|