亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

【爬蟲二】爬取豆瓣音樂榜單

2019-11-14 10:59:34
字體:
來源:轉載
供稿:網友


前言

  借助有效率的工具,可以讓我們更加方便的寫出爬蟲程序。本篇使用request和bs4庫爬取豆瓣音樂榜單。

介紹

豆瓣音樂榜單:https://music.douban.com/top250 圖片描述 bs4:Beautiful Soup 4 是一個可以從HTML或xml文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航、查找、修改文檔的方式。Beautiful Soup會幫你節省數小時甚至數天的工作時間。

一、獲取網頁html

def download_page(url): headers = { 'User-Agent':'查看自己的User-Agent,粘貼到此處' } data = requests.get(url, headers=headers).content return data

  不添加headers可能導致403,無法獲取網頁源碼,這是因為操作被服務器認為是爬蟲而拒絕訪問。服務器通過校驗請求的U-A來識別爬蟲,這是一種相對簡單的反爬蟲機制。通過模擬瀏覽器的U-A,可以解決這個問題。

  通常,瀏覽器在向服務器發送請求的時候,會有一個請求頭——User-Agent,它用來標識瀏覽器的類型。當我們使用requests來發送請求的時候,默認的User-Agent是python-requests/2.8.1。如此我們嘗試將User-Agent偽裝成瀏覽器。我們通過手動指定User-Agent為Chrome瀏覽器(F12–>Network中查看),再次訪問得到網頁源碼。

二、獲取當前頁歌名

def parse_html(html): global count soup = BeautifulSoup(html, "html.parser") music_list_soup = soup.find('div', attrs={'class': 'indent'}) music_name_list = [] for music_li in music_list_soup.find_all('table'): detail = music_li.find('div', attrs={'class': 'pl2'}) count += 1 music_name = 'Top ' + str(count) music_name = music_name + detail.find('a').getText() + '/n' music_name_list.append(music_name) next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return music_name_list, next_page['href'] else: return music_name_list, None

  我們使用了beautifulsoup來分析網頁源碼, 創建bs對象soup,并使用解析器html.parser來解析源碼。    按F12–>Element查看網頁源碼,發現<div class='indent'>標簽下存在歌單(table標簽); 圖片描述 用for循環獲取所有table,并對每一個table進行分析;

<div, class='pl2'>標簽下的<a>標簽下發現歌名, 圖片描述

用此detail.find('a').getText() 函數獲取a標簽下的文字內容,并添加到列表中music_name_list.append(music_name) ,再把列表的元素寫進文件就可以了。

注: BeautifulSoup中的find和findAll用法相同,不同之處為find返回的是findAll搜索值的第一個值。

三、翻頁

  next_page是為了讓程序能夠翻頁,next_page['href'] ,獲取下一頁url,通過while循環來反復訪問,進而可以獲取完整歌單。 圖片描述

四、代碼

  最后,完整程序代碼如下:

#!/usr/bin/env python# encoding=utf-8import requestsfrom bs4 import BeautifulSoupimport codecsdef download_page(url): headers = { 'User-Agent':'查看自己的User-Agent,粘貼到此處' } data = requests.get(url, headers=headers).content return datadef parse_html(html): global count soup = BeautifulSoup(html, "html.parser") music_list_soup = soup.find('div', attrs={'class': 'indent'}) music_name_list = [] for music_li in music_list_soup.find_all('table'): detail = music_li.find('div', attrs={'class': 'pl2'}) count += 1 music_name = 'Top ' + str(count) music_name = music_name + detail.find('a').getText() + '/n' music_name_list.append(music_name) next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return music_name_list, next_page['href'] else: return music_name_list, Nonedef main(): url = 'https://music.douban.com/top250' fp = codecs.open('music', 'w', encoding='utf-8') while url: html = download_page(url) musics, url = parse_html(html) fp.write(''.join(musics))

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲精品美女免费| 欧美日韩另类字幕中文| 国产精品亚洲аv天堂网| 久久久99久久精品女同性| 国产精品久久久久7777婷婷| 国产mv久久久| 久久99久久久久久久噜噜| 亚洲人在线视频| 久久久精品中文字幕| 国产日韩欧美在线看| 九九九久久国产免费| 亚洲精品中文字幕有码专区| 欧美性猛交xxxx富婆弯腰| 国产成人久久久精品一区| 91在线色戒在线| 青草青草久热精品视频在线观看| 国产精品www色诱视频| 夜夜嗨av色综合久久久综合网| 国产一区二区三区18| 亚洲欧洲av一区二区| 深夜福利91大全| 亚洲国产又黄又爽女人高潮的| 欧美日韩精品在线播放| 成人免费网站在线看| 欧美孕妇毛茸茸xxxx| 欧美xxxx做受欧美| 欧美精品videossex性护士| 国产亚洲免费的视频看| 欧美电影免费观看大全| 91在线视频导航| 精品日韩中文字幕| 亚洲欧美日韩一区二区三区在线| 国产精品亚洲欧美导航| 色综合久久久888| 欧美电影院免费观看| 91精品久久久久久久久久久久久久| 国产日韩换脸av一区在线观看| 国产精品偷伦视频免费观看国产| 国产精品成人一区二区三区吃奶| 亚洲成人av片在线观看| 欧美成人一区二区三区电影| 久久艹在线视频| 不卡中文字幕av| 欧美巨大黑人极品精男| 精品成人久久av| 91天堂在线视频| 午夜精品一区二区三区av| 欧美成人黄色小视频| 欧美成人黑人xx视频免费观看| 亚洲免费视频观看| 成人免费网视频| 欧美天天综合色影久久精品| 国产精品丝袜一区二区三区| 国产成人中文字幕| 97超视频免费观看| 日韩欧美亚洲成人| 亚洲加勒比久久88色综合| 91av在线免费观看视频| 国产成人精品视频在线| 亚洲欧美国产一区二区三区| 久久精品99国产精品酒店日本| 日韩在线观看网站| 欧美大肥婆大肥bbbbb| 欧美成人全部免费| 欧美视频专区一二在线观看| 大桥未久av一区二区三区| 国产视频精品久久久| 夜夜嗨av色综合久久久综合网| 九九热精品视频| 国产成人jvid在线播放| 91久久精品国产91性色| 国产69久久精品成人| 亚洲国产婷婷香蕉久久久久久| 亚洲天堂网站在线观看视频| 91九色综合久久| 欧美性猛交视频| 日韩电影大片中文字幕| 欧美极品少妇与黑人| 欧美激情网友自拍| 亚洲精品黄网在线观看| 欧美黄色片免费观看| 亚洲二区中文字幕| 亚洲网在线观看| 欧美精品久久久久a| 97色在线观看免费视频| 91色p视频在线| 国产99久久精品一区二区永久免费| 国产日韩换脸av一区在线观看| 日韩在线国产精品| 国产一区二区三区18| 国产视频在线观看一区二区| 亚洲免费小视频| 亚洲第一区在线观看| 国产精品一二三视频| 久久亚洲成人精品| 在线看福利67194| 欧美激情视频一区二区| 精品国产乱码久久久久久天美| 国模吧一区二区三区| 国产精品久久久久久搜索| 欧美丰满少妇xxxxx做受| 亚洲aa中文字幕| 最近2019年中文视频免费在线观看| 欧美壮男野外gaytube| 成人久久18免费网站图片| 一本一道久久a久久精品逆3p| 欧美尤物巨大精品爽| 精品国产91久久久| 亚洲国产精品电影在线观看| 亚洲综合视频1区| 欧美香蕉大胸在线视频观看| 亚洲一区二区三区四区在线播放| 按摩亚洲人久久| 日韩精品小视频| 精品自在线视频| 国产精品成人在线| 亚洲综合日韩中文字幕v在线| 欧美电影免费观看大全| 亚洲专区国产精品| 国产精品欧美在线| 成人欧美在线视频| 亚洲国产99精品国自产| 欧美另类极品videosbestfree| 国产深夜精品福利| 国产精品高精视频免费| 欧美性猛交xxxx免费看久久久| 97视频在线播放| 欧美精品九九久久| 最好看的2019年中文视频| 亚洲色图17p| 国产成人免费av| 日韩中文字幕视频在线观看| 欧美大片在线影院| 欧美黑人一区二区三区| 国产999视频| 国产精品久在线观看| 午夜精品久久久久久99热| 最近2019中文免费高清视频观看www99| 宅男66日本亚洲欧美视频| 午夜欧美大片免费观看| 一区国产精品视频| 日韩国产一区三区| 欧美日韩在线一区| 亚洲国产成人精品电影| 久久青草精品视频免费观看| 欧美日韩不卡合集视频| 97在线日本国产| 亚洲天堂视频在线观看| 亚洲视频第一页| 国产乱肥老妇国产一区二| 国产精品xxx视频| 97国产在线视频| 欧美一区二区影院| 久久免费精品日本久久中文字幕| 黑人巨大精品欧美一区二区免费| 久久国产精品影视| 最新69国产成人精品视频免费| 日韩欧美综合在线视频| 国产一区在线播放| 欧美黄色片在线观看| 欧美电影免费观看高清完整| 亚洲欧美日韩天堂一区二区| 51精品国产黑色丝袜高跟鞋| 久久国产精品99国产精|