亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

python爬蟲框架scrapy實戰之爬取京東商城進階篇

2020-02-23 04:37:20
字體:
來源:轉載
供稿:網友

前言

之前的一篇文章已經講過怎樣獲取鏈接,怎樣獲得參數了,詳情請看python爬取京東商城普通篇,本文將詳細介紹利用python爬蟲框架scrapy如何爬取京東商城,下面話不多說了,來看看詳細的介紹吧。

代碼詳解

1、首先應該構造請求,這里使用scrapy.Request,這個方法默認調用的是start_urls構造請求,如果要改變默認的請求,那么必須重載該方法,這個方法的返回值必須是一個可迭代的對象,一般是用yield返回。

代碼如下:

def start_requests(self): for i in range(1,101): page=i*2-1 #這里是構造請求url的page,表示奇數 url=self.start_url+str(page) yield scrapy.Request(url,meta={'search_page':page+1},callback=self.parse_url) #這里使用meta想回調函數傳入數據,回調函數使用response.meta['search-page']接受數據

下面就是解析網頁了,從上面看出這里的解析回調函數是parse_url,因此在此函數中解析網頁。這里還是和上面說的一樣,這個url得到的僅僅是前一半的信息,如果想要得到后一半的信息還有再次請求,這里還有注意的就是一個技巧:一般先解析出一個數據的數組,不急著取出第一個數,先要用if語句判斷,因為如果得到的是[],那么直接取出[0]是會報錯的,這只是一個避免報錯的方法吧。

代碼如下:

def parse_url(self,response): if response.status==200: #判斷是否請求成功 # print response.url pids = set() #這個集合用于過濾和保存得到的id,用于作為后面的ajax請求的url構成 try: all_goods = response.xpath("http://div[@id='J_goodsList']/ul/li") #首先得到所有衣服的整個框架,然后從中抽取每一個框架 for goods in all_goods: #從中解析每一個 # scrapy.shell.inspect_response(response,self) #這是一個調試的方法,這里會直接打開調試模式 items = JdSpiderItem() #定義要抓取的數據 img_url_src = goods.xpath("div/div[1]/a/img/@src").extract() # 如果不存在就是一個空數組[],因此不能在這里取[0] img_url_delay = goods.xpath(  "div/div[1]/a/img/@data-lazy-img").extract() # 這個是沒有加載出來的圖片,這里不能寫上數組取第一個[0] price = goods.xpath("div/div[3]/strong/i/text()").extract() #價格 cloths_name = goods.xpath("div/div[4]/a/em/text()").extract() shop_id = goods.xpath("div/div[7]/@ data-shopid").extract() cloths_url = goods.xpath("div/div[1]/a/@href").extract() person_number = goods.xpath("div/div[5]/strong/a/text()").extract() pid = goods.xpath("@data-pid").extract() # product_id=goods.xpath("@data-sku").extract() if pid:  pids.add(pid[0]) if img_url_src: # 如果img_url_src存在  print img_url_src[0]  items['img_url'] = img_url_src[0] if img_url_delay: # 如果到了沒有加載完成的圖片,就取這個url  print img_url_delay[0]  items['img_url'] = img_url_delay[0] # 這里如果數組不是空的,就能寫了 if price:  items['price'] = price[0] if cloths_name:  items['cloths_name'] = cloths_name[0] if shop_id:  items['shop_id'] = shop_id[0]  shop_url = "https://mall.jd.com/index-" + str(shop_id[0]) + ".html"  items['shop_url'] = shop_url if cloths_url:  items['cloths_url'] = cloths_url[0] if person_number:  items['person_number'] = person_number[0] # if product_id: # print "************************************csdjkvjfskvnk***********************" # print self.comments_url.format(str(product_id[0]),str(self.count)) # yield scrapy.Request(url=self.comments_url.format(str(product_id[0]),str(self.count)),callback=self.comments) #yield scrapy.Request寫在這里就是每解析一個鍵褲子就會調用回調函數一次 yield items except Exception: print "********************************************ERROR**********************************************************************" yield scrapy.Request(url=self.search_url.format(str(response.meta['search_page']),",".join(pids)),callback=self.next_half_parse) #再次請求,這里是請求ajax加載的數據,必須放在這里,因為只有等到得到所有的pid才能構成這個請求,回調函數用于下面的解析            
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美激情国产精品| 日韩av色综合| www.欧美精品| 欧美在线视频在线播放完整版免费观看| 日韩av男人的天堂| 亚洲偷欧美偷国内偷| 亚洲电影免费观看高清完整版在线观看| 免费成人高清视频| 日韩av免费在线观看| 国产日韩精品综合网站| 亚洲高清色综合| 国产午夜精品视频免费不卡69堂| 国产精品国产三级国产专播精品人| 一区二区三区美女xx视频| 性色av一区二区三区红粉影视| 欧美日韩一区二区三区| 懂色av影视一区二区三区| 国产在线观看精品一区二区三区| 狠狠躁夜夜躁久久躁别揉| 亚洲国产成人精品一区二区| 欧美老女人bb| 久久免费福利视频| 欧美成人国产va精品日本一级| 亚洲精品视频免费在线观看| 久久精品99久久香蕉国产色戒| 国产精品99免视看9| 久久久久久久久久久人体| 亚洲国产高清高潮精品美女| 欧美成人免费视频| 国产成人精品免费久久久久| 国产欧美精品一区二区三区-老狼| 久久电影一区二区| 精品av在线播放| 黑人巨大精品欧美一区二区一视频| 亚洲欧洲在线播放| 992tv在线成人免费观看| 国产一区二区三区精品久久久| 亚洲欧洲国产精品| 欧美黄色片视频| 久久精品视频导航| 亚洲国产成人91精品| 久久久综合av| 欧美日韩国产精品一区二区三区四区| 91亚洲精品久久久久久久久久久久| 亚洲欧洲在线看| 91亚洲精华国产精华| 久久精彩免费视频| 日韩av观看网址| 中文欧美日本在线资源| 亚洲va男人天堂| 日韩精品亚洲视频| 最好看的2019年中文视频| 精品久久久久久久久久国产| 91高潮精品免费porn| 亚洲情综合五月天| 亚洲已满18点击进入在线看片| 最近中文字幕mv在线一区二区三区四区| 国产欧美一区二区三区四区| 精品一区二区三区四区在线| 亚洲三级 欧美三级| 欧美性猛交xxxx免费看漫画| 国产情人节一区| 国产成人精品久久| 国产成人自拍视频在线观看| 中文字幕欧美亚洲| 奇门遁甲1982国语版免费观看高清| 粉嫩av一区二区三区免费野| 高清欧美一区二区三区| 亚洲高清久久网| 欧美日韩成人精品| 姬川优奈aav一区二区| 精品国偷自产在线视频99| 97国产精品免费视频| 日韩最新免费不卡| 国产成人精品av| 亚洲国产高清自拍| 久久久精品美女| 日韩高清有码在线| 亚洲激情中文字幕| 黄色精品在线看| 韩国福利视频一区| 国产精品免费视频久久久| 日韩av免费看网站| 日韩有码视频在线| 97超碰国产精品女人人人爽| 亚洲欧美三级在线| 欧美一级大片视频| 91在线视频一区| 黑人精品xxx一区一二区| 亲爱的老师9免费观看全集电视剧| 日本乱人伦a精品| 精品久久久久久久久中文字幕| 4k岛国日韩精品**专区| 久久久久久999| 久久国产精品网站| 欧美大秀在线观看| 激情成人在线视频| 91精品国产99| 97视频色精品| 91美女片黄在线观看游戏| 久久综合伊人77777蜜臀| 俺去亚洲欧洲欧美日韩| 中文字幕视频在线免费欧美日韩综合在线看| 欧美性猛交xxxx免费看漫画| 欧美专区第一页| 亚洲美女视频网站| 国产一区二区在线免费视频| 午夜精品在线观看| 亚洲国产成人一区| 精品视频偷偷看在线观看| 成人免费观看a| 亚洲国产精品成人av| 国产不卡在线观看| 欧美性xxxx极品hd满灌| 国产一区二区精品丝袜| 欧美电影在线观看完整版| 久久久999精品免费| 久久99亚洲精品| 91精品久久久久久久久| 亚洲激情成人网| 色偷偷88888欧美精品久久久| 久久久这里只有精品视频| 亚洲欧美国产精品专区久久| xxxxxxxxx欧美| 久久久免费电影| 深夜福利91大全| 久久综合色88| 91九色视频导航| 亚洲国产精品久久精品怡红院| 亚洲综合一区二区不卡| 亚洲欧美精品一区二区| 亚洲精品自拍偷拍| 中文字幕在线成人| 亚洲国产古装精品网站| 亚洲精品理论电影| 国产美女主播一区| 国产美女精品免费电影| 国产成人久久精品| 中文字幕亚洲精品| 2018国产精品视频| 欧美日韩国产精品一区二区三区四区| 欧美成人免费观看| 欧美精品videossex性护士| 色噜噜国产精品视频一区二区| 亚洲在线一区二区| 91精品久久久久久久久青青| 北条麻妃一区二区三区中文字幕| 尤物tv国产一区| 精品久久久视频| 欧美人与物videos| 美女精品久久久| 国产一区二区三区毛片| 国产视频亚洲视频| 综合136福利视频在线| 欧美色图在线视频| 欧美激情精品久久久| 日韩av在线最新| 久久久久久国产精品三级玉女聊斋| 日本中文字幕成人| 超碰精品一区二区三区乱码| 亚洲黄色有码视频| 国产视频精品免费播放| 欧美日韩国产中文字幕| 亚洲国产欧美一区二区三区同亚洲|