Python的charts和Jupyter的使用使數據可視化對58同城的爬取

2019-11-11 05:46:09

字體：大中小

來源：轉載

供稿：網友

嘗試學習了將爬取的數據進行清洗，更新數據庫后。進行可視化。記錄一部分

主要是對兩個庫的使用

使用pip進行安裝

jupyter安裝后再cmd下輸入 jupyter notebook

成功的話會跳轉到瀏覽器：這里寫圖片描述

這里寫圖片描述

確實好用方便

在jupyter中編寫

這里寫圖片描述

有個庫是string中的。是標點符號的庫。 punctuation if not in punctuation

可以做數據的清洗過濾。如果不是標點符號

清洗數據后，更新 update方法 db.collection.update() 接收兩個參數 1. 更新哪個文件 2. 怎么改。

如下圖：

這里寫圖片描述

其他操作符這里寫圖片描述

清洗后可視化

Charts

例子：

import charts#數據series =[ { 'name':'OS X', 'data':[11], 'type':'column' }, {'name':'Ubuntu', 'data':[8], 'type':'column' }, {'name':'Windows', 'data':[12], 'type':'column' }, {'name':'Other', 'data':[29], 'type':'column' }]#使用charts繪畫charts.plot(series,show='inline',options=dict(title=dict(text='Charts test')))

運行后：好方便！

這里寫圖片描述

我也百度看的別人的博客

http://www.cnblogs.com/pangduzi/p/5889896.html

這個就寫的很詳細。我也記錄下，方便以后使用。

我也爬取了一會58二手數據。。。但是沒讓電腦跑那么久。看到這位大佬也爬取了 http://www.cnblogs.com/pangduzi/p/5889952.html

學習了。

對這幾天學習的爬取做下總結：更加熟練的使用BeautifulSoup了。結合谷歌瀏覽器的復制來獲取其分析路徑。然后用其的select方法來獲取。

還有對其網頁進行分析。使用多進程快些。多核的話多進程比多線程更快些。

記錄下當時的筆記：

對58同城的二手市場爬取

先進入二手市場首頁，然后獲取所有二手分類

這里寫圖片描述

分析就是這里寫圖片描述

Ul下的li下的b的a

ul.ym-submnu > li > b > a

但是返回的只是后面的，并不是完整的url，那么拼接

# -*- coding: UTF-8 -*-import requestsfrom bs4 import BeautifulSoup#二手首頁，然后獲取每個二手分類的urlstart_url = 'http://cd.58.com/sale.shtml'def get_channel_urls(url): wb_data = requests.get(start_url) soup = BeautifulSoup(wb_data.content) links = soup.select('ul.ym-submnu > li > b > a') for link in links: page_url = 'http://cd.58.com/'+link.get('href') PRint(page_url)get_channel_urls(start_url)

這里寫圖片描述

然后獲取每個分類也后的每個商品的url，并存入mongoDB

這里寫圖片描述

# -*- coding: UTF-8 -*-import requestsfrom bs4 import BeautifulSoupimport timeimport pymongo#將爬取的url放入數據庫，先建立數據庫client = pymongo.MongoClient('localhost',27017)ceshi = client['ceshi']url_list = ceshi['url_list']#第一個爬蟲，抓起列表中的url#每一個二手分類頻道里的每個商品獲取其urldef get_links_from(channel,pages,who_sells=0): #http://cd.58.com/diannao/pn2 #頁面變的就是pn ，who_sells是分類個人還是商家默認0也就是個人 list_view = '{}{}/pn{}'.format(channel,str(who_sells),str(pages)) wb_data = requests.get(list_view) time.sleep(1) soup = BeautifulSoup(wb_data.content) for link in soup.select('td.t a.t'): item_link =link.get('href').split('?')[0] url_list.insert({'url':item_link}) print(item_link)get_links_from('http://cd.58.com//danche/',2)

這里寫圖片描述

但是輸入過大的頁面有可能就沒有了

那么做個判斷。比較有與沒有的差別在于是否有商品，用的是td

就在for前面加個判斷

if soup.find('td','t'): for link in soup.select('td.t a.t'): item_link =link.get('href').split('?')[0] url_list.insert({'url':item_link}) print(item_link)else: pass

然后第二個爬取，爬取每個商品的詳細信息

有可能之前爬取的url突然刪除了或者已經交易出去了。

返回的是404頁面。那么做個判斷 404在 script標簽中有404就是灰跳轉到404

#爬取商品的詳細信息def get_item_info(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.content) #有可能之前爬取的url突然刪除了或者已經交易出去了。 no_longer_exist = '404' in soup.find('script',type="text/javascript").get('src').split('/') if no_longer_exist: pass else: title = soup.title.text price = soup.select('span.price.c_f50')[0].text date = soup.select('.time')[0].text #有的有可能會沒有所有在后面做了個if else的判斷 ##content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-child(3) > div.su_con > span area = list(soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-of-type(3) > div.su_con > span > a:nth-of-type(1)')[0].text) if soup.find('span','c_25d') else None item_info.insert({'title':title,'price':price,'date':date,'area':area}) print(area)get_item_info('http://cd.58.com/diannao/23276725917860x.shtml')

這里寫圖片描述