亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

編寫Python爬蟲抓取豆瓣電影TOP100及用戶頭像的方法

2020-01-04 17:49:51
字體:
來源:轉載
供稿:網友
這篇文章主要介紹了編寫Python爬蟲抓取豆瓣電影TOP100及用戶頭像的方法,用到了Python的urllib和urllib2模塊,需要的朋友可以參考下
 

抓取豆瓣電影TOP100
一、分析豆瓣top頁面,構建程序結構

1.首先打開網頁http://movie.douban.com/top250?start,也就是top頁面
然后試著點擊到top100的頁面,注意帶top100的鏈接依次為

http://movie.douban.com/top250?start=0http://movie.douban.com/top250?start=25http://movie.douban.com/top250?start=50http://movie.douban.com/top250?start=75

2.然后通過查看源碼,發現電影名的代碼如下:

<span class="title">肖申克的救贖</span>
<span class="title"> / The Shawshank Redemption</span>
如圖,因為有一些英文名等描述,通過正則抓取有些干擾,可能還需要后續過濾。

根據以上信息,此程序主要分以下3個步驟:

二、構建url地址池

  • 抓取top100電影名稱
  • 依次打印輸出

依次寫出代碼

1.構建url地址池。代碼如下:

import urllib2import re# ----------確定url地址池------------pre_url = 'http://movie.douban.com/top250?start='top_urls = []# 因為top100,每頁25部電影,故為4頁,從零開始for num in range(4):  top_urls.append(pre_url + str(num * 25))

2.抓取top100電影名稱

# ------------抓取top100電影名稱----------top_content = []top_tag = re.compile(r'<span class="title">(.+?)</span>')for url in top_urls:  content = urllib2.urlopen(url).read()  pre_content = re.findall(top_tag, content)  # 過濾不符合條件的list,得到最后的top100的list  for item in pre_content:    if item.find(' ') == -1:      top_content.append(item)

3.打印輸出

top_num = 1for item in top_content:  print 'Top' + str(top_num) + '  ' + item  top_num += 1

三、整理代碼
我還是python新手,還沒有太多的pythonic思想,也沒有代碼優化技巧,只能說是整理。
其次,個人習慣,在簡單的代碼里面我還是喜歡少用函數,盡量不隱藏代碼的邏輯。
以下代碼請參考,并歡迎提意見,希望得到大家的意見,謝謝!
整理后的代碼如下:

# coding=utf-8'''本代碼為自動抓取豆瓣top100電影代碼@pre_url url地址前綴,在這里為http://movie.douban.com/top250?start=@top_urls url地址池@top_tag 為抓取電影名正則表達式'''import urllib2import repre_url = 'http://movie.douban.com/top250?start='top_urls = []top_tag = re.compile(r'<span class="title">(.+?)</span>')top_content = []top_num = 1# ----------確定url地址池------------# 因為top100,每頁25部電影,故為4頁,從零開始for num in range(4):  top_urls.append(pre_url + str(num * 25))# ------------抓取top100電影名稱,并打印輸出----------top_tag = re.compile(r'<span class="title">(.+?)</span>')for url in top_urls:  content = urllib2.urlopen(url).read()  pre_content = re.findall(top_tag, content)  # 過濾并打印輸出  for item in pre_content:    if item.find(' ') == -1:      print 'Top' + str(top_num) + '  ' + item      top_num += 1

抓取用戶頭像圖片

import urllib.requestimport reimport time #獲取輸入的帖子單頁htmldef getHtml2(url2):  html2=urllib.request.urlopen(url2).read().decode('utf-8')  return html2 #抽取圖片相關列表,并下載圖片def gettopic(html2):  reg2=r'http://www.douban.com/group/topic//d+'  topiclist=re.findall(reg2,html2)  x=0  #限制下載的圖片數  for topicurl in topiclist:    x+=1  return topicurl  #下載圖片到本地def download(topic_page):  reg3=r'http://img3.douban.com/view/group_topic/large/public/.+/.jpg'  imglist=re.findall(reg3,topic_page)  i=1  download_img=None  for imgurl in imglist:#取圖片ID為文件名    img_numlist=re.findall(r'p/d{7}',imgurl)    for img_num in img_numlist:             download_img=urllib.request.urlretrieve(imgurl,'D:/python/code/girls/%s.jpg'%img_num)      time.sleep(1)       i+=1      print(imgurl)  return download_img #調用函數page_end=int(input('請輸入結束時的頁碼:'))num_end=page_end*25num=0page_num=1while num<=num_end:  html2=getHtml2('http://www.douban.com/group/kaopulove/discussion?start=%d'%num)  topicurl=gettopic(html2)  topic_page=getHtml2(topicurl)  download_img=download(topic_page)  num=page_num*25  page_num+=1 else:  print('采集完成!')

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲成人aaa| 日韩有码在线观看| 亚洲精品日韩在线| 日韩电影免费在线观看中文字幕| 欧美一级视频免费在线观看| 精品免费在线视频| 国产精品国产亚洲伊人久久| 97国产真实伦对白精彩视频8| 亚洲自拍小视频免费观看| 亚洲激情在线观看视频免费| 国产精品一区二区久久国产| 成人欧美一区二区三区在线湿哒哒| 欧美精品18videosex性欧美| 亚洲r级在线观看| 亚洲高清一二三区| 国产精品爱啪在线线免费观看| 精品久久久久久久久久| 国产主播欧美精品| 91精品国产91久久久久| 亚洲自拍高清视频网站| 欧美精品久久一区二区| 成人黄色av免费在线观看| 亚洲日韩欧美视频一区| 午夜欧美不卡精品aaaaa| 91老司机精品视频| 亚洲人成在线播放| 日韩少妇与小伙激情| 亚洲欧美日韩久久久久久| 久久九九有精品国产23| 91精品视频大全| 国产欧美一区二区三区久久人妖| 成人久久久久久| 亚洲最大成人免费视频| 亚洲美女喷白浆| 91极品女神在线| 亚洲欧美资源在线| 国产精品偷伦一区二区| 国产精品日日做人人爱| 中文字幕精品视频| 亚洲欧美日韩另类| 国产精品18久久久久久首页狼| 亚洲国产古装精品网站| 久久久久久亚洲精品中文字幕| 久久激情五月丁香伊人| 91在线视频一区| 国产精品高潮呻吟久久av无限| 91免费国产视频| 538国产精品一区二区免费视频| 亚洲欧美中文字幕在线一区| 亚洲精品av在线播放| 欧美国产日韩视频| 在线观看免费高清视频97| 91色视频在线观看| 国产精彩精品视频| 欧美亚洲午夜视频在线观看| 成人网在线免费观看| 亚洲一区亚洲二区| 激情懂色av一区av二区av| 中文字幕亚洲无线码在线一区| 最新91在线视频| 茄子视频成人在线| 日韩中文娱乐网| 91精品国产综合久久香蕉922| 国产精品影院在线观看| 国产视频精品xxxx| 日韩电影大全免费观看2023年上| 国产精品欧美亚洲777777| 欧美日韩亚洲成人| 久久精品国产亚洲精品| 亚洲第一精品电影| 成人黄色在线观看| 精品视频中文字幕| 久久九九有精品国产23| 亚洲第一网中文字幕| 美女福利视频一区| 亚洲人线精品午夜| 69久久夜色精品国产69| 96pao国产成视频永久免费| 91亚洲精品视频| 在线激情影院一区| 国产精品91久久久久久| 91av在线免费观看视频| 色悠久久久久综合先锋影音下载| 欧美日韩电影在线观看| 精品毛片网大全| 午夜精品一区二区三区在线播放| 国产精品自产拍在线观看| 91免费福利视频| 日韩女优人人人人射在线视频| 国产精品大片wwwwww| 国内精品在线一区| 久久久久久伊人| 97婷婷大伊香蕉精品视频| 91精品久久久久久久久久入口| 成人黄色影片在线| 亚洲成人a**站| 成人xvideos免费视频| 欧美成人剧情片在线观看| 国产精品老牛影院在线观看| 国产成人精品一区二区| 中文字幕视频一区二区在线有码| 日韩欧美亚洲一二三区| 欧美色视频日本版| 日韩精品极品视频免费观看| 国产精品极品美女在线观看免费| 亚洲人成绝费网站色www| 欧美成人高清视频| 亚洲性猛交xxxxwww| 国产精品十八以下禁看| 久久这里只有精品99| 亚洲精品视频网上网址在线观看| 日韩av在线一区二区| 91精品视频在线免费观看| 欧美性极品少妇精品网站| 伊人亚洲福利一区二区三区| 91精品国产高清自在线看超| 亚洲国产美女久久久久| 91国产精品视频在线| 亚洲欧美国产一区二区三区| 久久精品视频中文字幕| 最近2019中文字幕大全第二页| 中文字幕一区电影| 久久资源免费视频| 欧美疯狂性受xxxxx另类| 欧美xxxx14xxxxx性爽| 亚洲国产欧美一区二区丝袜黑人| 日韩欧美有码在线| 国产成人a亚洲精品| 日韩精品欧美国产精品忘忧草| 久久男人资源视频| 91精品在线观| 亚洲国产精品大全| 亚洲国产高清福利视频| 国产欧美一区二区三区在线看| 538国产精品一区二区在线| 亚洲久久久久久久久久久| 这里只有视频精品| 日韩精品在线观看视频| 欧美大尺度激情区在线播放| 国产在线精品自拍| 国产精品久久久久久久久久久久久久| 日韩电影中文字幕在线观看| 国产精品a久久久久久| 欧美裸体xxxx极品少妇软件| 九九久久精品一区| 欧美黑人xxxⅹ高潮交| 最近中文字幕日韩精品| 久久人人爽国产| 成人在线精品视频| 亚洲精品成人久久| 成人精品一区二区三区电影黑人| 亚洲精品中文字| 成人av番号网| 2019中文字幕在线| 久久视频这里只有精品| 国产97在线亚洲| 国产精彩精品视频| 精品久久久久久久久久ntr影视| 欧美日本在线视频中文字字幕| 亚洲美女精品成人在线视频| 91视频九色网站| 日韩在线www| www.久久久久| 91精品国产高清自在线|