本文實例講述了Python爬蟲框架Scrapy常用命令。分享給大家供大家參考,具體如下:
在Scrapy中,工具命令分為兩種,一種為全局命令,一種為項目命令。
全局命令不需要依靠Scrapy項目就可以在全局中直接運行,而項目命令必須要在Scrapy項目中才可以運行
全局命令
全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不進入Scrapy項目所在目錄的情況下,運行scrapy-h
,如圖所示:
可以看到,此時在可用命令在終端下展示出了常見的全局命令,分別為fetch、runspider、settings、shell、startproject、version、view。
fetch命令
fetch命令主要用來顯示爬蟲爬取的過程.如下圖所示:
在使用fetch命令時,同樣可以使用某些參數進行相應的控制。那么fetch有哪些相關參數可以使用呢?我們可以通過scrpy fetch -h
列出所有可以使用的fetch相關參數。比如我們可以使用–headers顯示頭信息,也可以使用–nolog控制不顯示日志信息,還可以使用–spider=SPIDER參數來控制使用哪個爬蟲,通過–logfile=FILE指定存儲日志信息的文件,通過–loglevel=LEVEL控制日志等級。舉個栗子:
# 顯示頭信息,并且不顯示日志信息scrpay -fetch --headers --nolog http://www.baidu.com
sunspider命令
通過runspider
命令可以不依托scrapy的爬蟲項目,直接運行一個爬蟲文件
# first.py為自定義的一個爬蟲文件scrapy runspider first.py
settings命令
在scrapy項目所在的目錄中使用settings命令查看的使用對應的項目配置信息,如果在scrapy項目所在的目錄外使用settings命令查看的Scrapy默認的配置信息
# 在項目中使用此命令打印的為BOT_NAME對應的值,即scrapy項目名稱。# 在項目外使用此命令打印的為scrapybotscrapy settings --get BOT_NAME
shell命令
通過shell命令可以啟動Scrapy的交互終端。
Scrapy的交互終端經常在開發以及調試的時候用到,使用Scrapy的交互終端可以實現在不啟動Scrapy爬蟲的情況下,對網站響應進行調試,同樣,在該交互終端下,我們也可以寫一些Python代碼進行相應測試。
在>>>后面可以輸入交互命令以及相應的代碼
startproject命令
用于創建scrapy項目
version命令
查看scrapy版本
view命令
用于下載某個網頁,然后通過瀏覽器查看
項目命令
bench命令
測試本地硬件的性能
scrapy bench
新聞熱點
疑難解答