Python爬蟲實現抓取京東店鋪信息及下載圖片功能示例

2020-02-15 22:41:25

字體：大中小

來源：轉載

供稿：網友

本文實例講述了Python爬蟲實現抓取京東店鋪信息及下載圖片功能。分享給大家供大家參考，具體如下：

這個是抓取信息的

from bs4 import BeautifulSoupimport requestsurl = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'response = requests.get(url)                          #解析網頁soup = BeautifulSoup(response.text,'lxml')                   #.text將解析到的網頁可讀storenames = soup.select('#J_ItemList > div > div > p.productTitle > a')    #選擇出商店的信息prices = soup.select('#J_ItemList > div > div > p.productPrice > em')     #選擇出價格的信息sales = soup.select('#J_ItemList > div > div > p.productStatus > span > em')  #選擇出銷售額的信息for storename, price, sale in zip(storenames,prices,sales):  storename = storename.get_text().strip()   #用get_text()方法篩選出標簽中的文本信息，由于篩選結果有換行符/n所以用strip()將換行符去掉  price = price.get_text()  sale = sale.get_text()  print('商店名:%-40s價格:%-40s銷售額:%s'%(storename,price,sale))   #使打印出來的信息規范  print('----------------------------------------------------------------------------------------------')

這個是下載圖片的

from bs4 import BeautifulSoupimport requestsimport urllib.requesturl = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'response = requests.get(url)soup = BeautifulSoup(response.text, 'lxml')imgs = soup.select('#J_ItemList > div > div > div.productImg-wrap > a > img')a = 1for i in imgs:  if(i.get('src')==None):    break  img = 'http:'+i.get('src') #這里廢了好長的時間，原來網站必須要有http：的  #print(img)  urllib.request.urlretrieve(img,'%s.jpg'%a, None,)  a = a+1

ps:

1.選擇信息的時候用css

2.用get_text()方法篩選出標簽中的文本信息

3.strip，lstrip，rstrip的用法：

Python中的strip用于去除字符串的首尾字符；同理，lstrip用于去除左邊的字符；rstrip用于去除右邊的字符。

這三個函數都可傳入一個參數，指定要去除的首尾字符。

需要注意的是，傳入的是一個字符數組，編譯器去除兩端所有相應的字符，直到沒有匹配的字符，比如：

theString = 'saaaay yes no yaaaass'print theString.strip('say')

theString依次被去除首尾在['s'，'a'，'y']數組內的字符，直到字符在不數組內。所以，輸出的結果為：

yes no

比較簡單吧，lstrip和rstrip








上一篇：Python 使用PIL中的resize進行縮放的實例講解


下一篇：解決使用pycharm提交代碼時沖突之后文件丟失找回的方法














發表評論
共有條評論






用戶名:

密碼:



驗證碼:

 

匿名發表


















學習交流
更多





微軟20日啟動最嚴厲反盜版驗證


羅技g502鼠標靈敏度怎么設置?






如何重啟打印機打印服務
如何重啟打印機打印服務...






快剪輯自帶水印可以消除，只需簡單設置12-24

飛鴿傳書好友列表顯示異常？或許是這兩個原因12-24

下載網頁中視頻的方法~~12-24

教你用拼音打出來不認識的字~~12-24




服務器故障鑒別及排除的方法01-30

Windows 2003中IIS 6.0應用程序池回收和工01-30

服務器硬件知識01-30

WIN2003下Web服務器配置01-30

帝國靈動標簽調用字數的控制09-08







熱門圖片
更多




校園甜美的背影，洋溢著青春爛漫的回憶


芭蕾舞蹈表演，真實美到極致




春節臨近，各地春節彩燈高高掛


冬日黃山云海與晚霞相映成輝




肉食主義者的最愛美食烤肉圖片


夏日甜心草莓美食圖片




人逢知己千杯少，喝酒搞笑圖集


搞笑試卷，學生惡搞答題







猜你喜歡的新聞


明兮大語文創始人王嘉樹：由于資金困難，公司停

明兮語文停止運營 發展資金鏈斷裂

2006年李俊編寫了“熊貓燒香”電腦病毒，現在

谷歌合并Alphabet旗下子公司Jigsaw，未來會如

暴風公司：將與風行在線在互聯網視聽服務領域

NASA說今天地球引力最小能讓掃帚立起來？原因

TCL集團宣布今日起正式更名為“TCL科技”

黑莓曲終落，情懷價幾何？

HTC官方社區將于明日(2月7日)正式關閉

小米年會爆笑神曲《咋了開發》





猜你喜歡的關注


python SSH模塊登錄，遠程機執行shell命令實

使用python編寫簡單的小程序編譯成exe跑在w

python+matplotlib繪制旋轉橢圓實例代碼

python逆向入門教程

使用C++擴展Python的功能詳解

Python數字圖像處理之霍夫線變換實現詳解

Python3一行代碼實現圖片文字識別的示例

聊聊Python中的pypy

Python實現霍夫圓和橢圓變換代碼詳解

Python編程二分法實現冒泡算法+快速排序代