Scrapy框架使用的基本知識

2020-02-15 23:18:59

字體：大中小

來源：轉載

供稿：網友

scrapy是一個基于Twisted的異步處理框架，可擴展性很強。優點此處不再一一贅述。

下面介紹一些概念性知識，幫助大家理解scrapy。

一、數據流向

要想熟練掌握這個框架，一定要明白數據的流向是怎么一個過程?？偨Y如下：

1.引擎先打開網站，請求url。

2.引擎通過調度器以Request形式調度url。

3.引擎請求下一個url。

4.調度器將url通過Downloader Middlewares發送給引擎

5.Downloader 生成response，通過Downloader Middlewares發送給引擎

6.引擎接收Response 通過spiderMiddleware發送給spider處理

7.spider處理response

8.引擎將spider處理的item給ItemPipeline 然后將新的Request給調度器。

二、各個結構的作用

DownloderMiddleware

調度器會從隊列之中拿出Request發送給Downloader執行下載，這個過程會經過DownloaderMiddleware的處理。

作用的位置有兩個：

在調度器調出Request發送給Downloader之前。下載之后生成Response發送給spider之前。

核心方法有三個：

process_request(request,spider)

Request 到達Downloader之前，就會被調用

參數介紹：

request ：Request對象，被處理的Request。 spider：spider對象，上面被處理的Request對應的spider。

返回值：

1.返回None 調用別的process_request()方法，直至將Request執行得到Response才會結束。

2.返回Response對象，低優先級的process_request()和process_exception不調用。

3.返回request對象，低優先級的process_request()停止執行，返回新的Request。

process_response(request,response,spider)

作用位置：

Downloader 執行Request之后，會得到對應的Reponse ，scrapy 引擎會將Response發送給spider進行解析，發送之前調用這個方法對Response進行處理。

返回值的情況：

1.返回Request低優先級的process_respons()不調用。

2.返回response低優先級的process_respons()繼續調用。

process_exception（request,exception,spider）

此函數主要是用來處理異常的。

spiderMiddleware

作用位置：

Downloader生成Response之后會發送給spider，在發送之前，會經過spiderMiddleware處理。

核心方法：

process_soider_input(response,spider)

返回值：

1.返回None

繼續處理Response，調用所有的spiderMiddleware，知道spider處理

2.跑出異常

直接調用Request的errback（）方法，使用process_spider_output()處理。

process_spider_output(response,result,spider)

上一篇：Python用5行代碼寫一個自定義簡單二維碼

下一篇：python中將正則過濾的內容輸出寫入到文件中的實例

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注