1,先看下phpspider的結構
2,舉例子:比如我爬取南昌新聞網的一個分類
這個注釋要加上,不然報錯,可以看看源碼,源碼里面有很多方法;
3,然后是配置下爬蟲:
4,然后將配置文件放入框架類文件,實例化:
這里的 on_scan_page 是爬取的入口url,這些URL跟我配置的 content_url_regxes 正則規則匹配,所以在后面的爬取過程中,會爬取到這幾個頁面的數據
5,對匹配后的字段field進行回調處理:
6,進行爬取數據入庫處理 , 跑起來
以上只是一個簡單的例子,還可以進行多進程爬取,代理爬蟲,很多好玩的。
相關推薦:
PHP網絡爬蟲之CURL詳解
PHP如何實現爬蟲
NodeJS爬蟲詳解
以上就是使用phpspider爬蟲的使用方法的詳細內容,更多請關注 其它相關文章!
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。
新聞熱點
疑難解答