亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

使用爬蟲爬取豆瓣2016電影榜單中所有電影

2019-11-10 17:08:48
字體:
來源:轉載
供稿:網友

更多技術文章請訪問我的個人博客

爬蟲每日篇—-今天使用爬蟲爬取豆瓣2016電影榜上所有電影信息,本來以為豆瓣這種大社區的防御做的會很好,看到是HTTPS協議,我都準備寫一大串頭部去模擬用戶了,沒想到一個urlopen就直接獲取了,可能是網站設計者故意沒做的很封閉,讓我有機可乘。這是網址(https://www.douban.com/doulist/3516235/?start=0&sort=seq&sub_type=),大家可以先看看。

如圖,這就是網頁的基本情況,大家可以先去看看網頁源代碼,我現在要做的就是把每個電影的整個<div>提取出來,代碼直接用urlopen弄了出來,我先保存到一個文件里,要慢慢的測試,直接用文件里的代碼就可以了,省得每次都抓取頁面。

# -*- coding: utf-8 -*-import urllib2import refrom bs4 import BeautifulSoupdef get_html(url): result = urllib2.urlopen(url) return result.read()def save_file(text, filename): f= open(filename,'w') f.write(text) f.close()def read_file(filename): f = open(filename,'r') text = f.read() f.close() return textif __name__=='__main__': url = 'https://www.douban.com/doulist/3516235/' html = get_html(url) save_file(html,'thefile.txt')

下一步對抓取的代碼開始提取,每個電影的介紹都包含在一對div中<div class="bd doulist-subject"></div>

使用BeautifulSoup來提取

html = read_file('thefile.txt') soup = BeautifulSoup(html) text = soup.find_all('div', class_='bd doulist-subject') save_file(str(text),'thefile.txt')

效果如下圖

每個電影的信息都提取出來了,我想要的是電影的名稱,評分,人員,上映日期,所以我只提取這些內容,大家可以按照自己的需求寫。

def get_movie_one(movie): result = [] soup_all = BeautifulSoup(str(movie)) title = soup_all.find_all('div', class_='title') soup_title = BeautifulSoup(str(title[0])) for line in soup_title.stripped_strings: # 對獲取到的<a>里的內容進行提取 PRint line num = soup_all.find_all('span', class_='rating_nums') print num[0].contents[0] info = soup_all.find_all('div', class_='abstract') soup_info = BeautifulSoup(str(info[0])) for line in soup_info.stripped_strings: # 對獲取到的<a>里的內容進行提取 print line## 結果:一切都好6.4導演: 張猛主演: 張國立 / 姚晨 / 竇驍類型: 劇情 / 家庭制片國家/地區: 中國大陸年份: 2016

第一個已經成功了,現在就開始批量的操作,一共有425個電影,我每提取一個就存到文件里,這是第一頁25個電影提取出來的效果。

下面是全部的代碼,大家可以參考一下。

#!/usr/bin/env python# -*- coding=utf-8 -*-import sysreload(sys)sys.setdefaultencoding( "utf-8" )import urllib2import reimport timefrom bs4 import BeautifulSoupdef get_html(url): #通過url獲取網頁內容 result = urllib2.urlopen(url) return result.read() # save_file(result.read(), 'thefile.txt')def get_movie_all(html): #通過soup提取到每個電影的全部信息,以list返回 soup = BeautifulSoup(html) movie_list = soup.find_all('div', class_='bd doulist-subject') return movie_listdef get_movie_one(movie): result = [] # 用于存儲提取出來的電影信息 soup_all = BeautifulSoup(str(movie)) title = soup_all.find_all('div', class_='title') soup_title = BeautifulSoup(str(title[0])) for line in soup_title.stripped_strings: # 對獲取到的<a>里的內容進行提取 result.append(line) # num = soup_all.find_all('span', class_='rating_nums') num = soup_all.find_all('span') result.append(num[1].contents[0]) soup_num = BeautifulSoup(str(num[0])) for line in soup_num.stripped_strings: # 對獲取到的<span>里的內容進行提取 result = result + line info = soup_all.find_all('div', class_='abstract') soup_info = BeautifulSoup(str(info[0])) result_str = "" for line in soup_info.stripped_strings: # 對獲取到的<div>里的內容進行提取 result_str = result_str + line result.append(result_str) return result #返回獲取到的結果def save_file(text, filename): #保存網頁到文件 f= open(filename,'ab') f.write(text) f.close()def read_file(filename): #讀取文件 f = open(filename,'r') text = f.read() f.close() return textif __name__=='__main__': for i in range(0,426,25): url = 'https://www.douban.com/doulist/3516235/?start='+str(i)+'&sort=seq&sub_type=' html = get_html(url) movie_list = get_movie_all(html) for movie in movie_list: #將每一頁中的每個電影信息放入函數中提取 result = get_movie_one(movie) text = ''+'電影名:'+str(result[0])+' | 評分:'+str(result[1])+' | '+str(result[2])+'/n'+'/t' save_file(text,'thee.txt') time.sleep(5) #每隔5秒抓取一頁的信息

更多技術文章請訪問我的個人博客


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产乱人伦真实精品视频| 久久婷婷国产麻豆91天堂| 亚洲欧美激情一区| 播播国产欧美激情| 中文字幕日韩欧美| 成人免费观看49www在线观看| 在线视频一区二区| 一本一本久久a久久精品综合小说| 亚洲人成在线播放| 亚洲欧美自拍一区| 日韩免费av一区二区| 精品久久久久久亚洲精品| 亚洲欧洲国产伦综合| 欧美交受高潮1| 欧美日韩aaaa| 久久99国产精品久久久久久久久| 国产一区红桃视频| 亚洲美女又黄又爽在线观看| 亚洲成av人片在线观看香蕉| 亚洲aaa激情| 久久久久国产精品一区| 国产97人人超碰caoprom| 97人人爽人人喊人人模波多| 国产精品视频yy9099| 中文字幕日韩视频| 日韩欧美在线免费观看| 中文字幕精品视频| 欧美日韩国产麻豆| 日韩高清有码在线| 国产亚洲免费的视频看| 午夜精品久久久久久99热| 国产精品旅馆在线| 亚洲精品电影网在线观看| 亚洲精品综合久久中文字幕| 亚洲综合中文字幕68页| 97在线看免费观看视频在线观看| 日韩av在线直播| 91免费看片网站| 久久99亚洲精品| 欧美日韩国产一区二区三区| 亚洲aⅴ男人的天堂在线观看| 日韩女优在线播放| 精品久久久久久久久久| 亚洲天堂网站在线观看视频| 久久久久久中文| 国产成人高潮免费观看精品| 日韩高清免费在线| 国产精品美女免费视频| 欧美放荡办公室videos4k| 91在线观看免费高清完整版在线观看| 91伊人影院在线播放| 日韩有码片在线观看| 91精品国产91久久久久久久久| 国产精品三级美女白浆呻吟| 欧美成人精品在线| 日韩电视剧在线观看免费网站| 久久国产精品久久精品| 最近免费中文字幕视频2019| 红桃av永久久久| 欧洲成人在线观看| 亚洲欧美精品中文字幕在线| 国产不卡视频在线| 91系列在线观看| 亚洲国产欧美日韩精品| 欧美电影免费观看| 成人免费视频a| 亚洲国产又黄又爽女人高潮的| 中文字幕欧美精品在线| 色播久久人人爽人人爽人人片视av| 亚洲高清久久久久久| 韩国一区二区电影| 亚洲精品久久久久中文字幕欢迎你| 欧美在线激情网| 怡红院精品视频| 久热精品视频在线免费观看| 97视频在线观看免费高清完整版在线观看| 日韩欧美在线视频| 国产精品96久久久久久| 亚洲一二在线观看| 亚洲成avwww人| 亚洲最大成人免费视频| 欧美—级a级欧美特级ar全黄| 91精品国产综合久久香蕉922| 欧日韩不卡在线视频| 亚洲人成电影在线观看天堂色| 欧美午夜激情视频| 欧美夫妻性生活视频| 久久久噜噜噜久久久| 欧美在线性爱视频| 神马久久久久久| 精品人伦一区二区三区蜜桃网站| 一区二区三区国产视频| 国产精品扒开腿做爽爽爽的视频| 中文字幕不卡在线视频极品| 性色av一区二区咪爱| 亚洲最大成人网色| 亚洲情综合五月天| 91精品国产91久久久久久久久| 日韩亚洲精品视频| 91视频免费网站| 国产精品一区二区三区毛片淫片| 午夜精品久久17c| 亚洲人成伊人成综合网久久久| 亚洲精品99久久久久中文字幕| 久久久噜噜噜久噜久久| 日韩成人在线播放| 国产精品丝袜一区二区三区| 国产精品久久久精品| 欧美成人合集magnet| 国产精品影片在线观看| 精品欧美aⅴ在线网站| 日韩欧美有码在线| 久久久国产一区二区三区| 久久久久国产精品免费| 国内精品400部情侣激情| 久久久精品电影| 国产精品伦子伦免费视频| 秋霞午夜一区二区| 亚洲视频在线视频| 久久国产精品电影| 欧美日韩在线一区| 日本不卡免费高清视频| 久久久日本电影| 欧美电影在线观看高清| 亚洲第一页自拍| 欧美日韩精品在线视频| 国外视频精品毛片| 久久精品99久久久香蕉| 在线电影中文日韩| 国产一区二区三区四区福利| 最近中文字幕日韩精品| 欧美日韩在线一区| 亚洲精品美女在线观看| 亚洲成人在线视频播放| 最近的2019中文字幕免费一页| 色综合久久88色综合天天看泰| 日韩在线视频网| 日韩精品丝袜在线| 日本中文字幕不卡免费| 中文国产成人精品久久一| 精品亚洲夜色av98在线观看| 欧美在线精品免播放器视频| 狠狠躁夜夜躁人人爽超碰91| 一区二区三区视频在线| 欧美一级大胆视频| 粗暴蹂躏中文一区二区三区| 欧美日韩国产中字| 欧美在线日韩在线| 国产一区二区三区高清在线观看| 韩国19禁主播vip福利视频| 亚洲黄色在线观看| 亚洲欧美日韩图片| 成人xxxx视频| 欧美午夜激情小视频| 国产精品18久久久久久麻辣| 国产午夜精品久久久| 欧美在线视频观看免费网站| 亚洲电影免费观看高清完整版在线观看| 狠狠躁天天躁日日躁欧美| 欧美一区视频在线| 国产精品国产三级国产aⅴ浪潮| 中国人与牲禽动交精品| 美女性感视频久久久| 久久久久久久影视|