慕課網Python開發簡單爬蟲源碼有注釋
今天2017年3月5日,杭城天氣不是很好,但對我來說今天依然是一個好日子。今天發生了一些故事,最主要的我倒騰了幾天的python爬蟲總算是完成了。將源碼奉獻出來,拍磚請輕點。
參考教程 慕課網的python開發簡單爬蟲 http://www.imooc.com/learn/563 注:本人代碼基本參考(應該是完全)該教程的內容,開發工具用的是pycharm,教程的用的eclips做python開發還得搞七搞八實在是太麻煩了。其實我是搞失敗了,請無視這句。
個人背景說明: 本人是業余玩家,學校學的是搬磚??戳艘徊糠謧髦遣タ?a href="http://www.49028c.com/article.asp?typeid=160">java基礎的視頻,按他們的流程算應該是十五天吧??戳艘恍﹑ython基礎的電子書和一些教程。
開發過程中碰到的一些問題:
主要是一開始的那些配置,比如導入bs4模塊,那個setup調用我是沒成功過,只有在運行那個程序后有加載進去,但是退出后重新建個python就找不到bs模塊了。最后我用的是pip的方法。 期間跟著視頻敲代碼肯定不會有問題的。最后測試運行GG了, 因為對這個開發工具不了解,不知道怎么調試,只會使用運行功能,所以用了個很low的方法,按照程序的運行流程插入PRint“hello1”之類的方式來判斷程序運行到哪里掛了,報錯是什么鬼也看不懂,所以看我的源碼亂的一筆。還有print soup 等直接打印各種亂七八糟的東西來判斷是否正確運行,反正能解決問題就好。就通過這樣的方式我知道這個程序問題出現在網頁解析器上,于是我建了個text_parser做解析方面的測試。我復制網頁解析器的代碼這個模塊進行改造,讓它直接順序執行,參數直接定義,不考慮函數調用,不考慮循環。后來發現這個解析的關鍵字跟視頻教程的是不一樣的,可能是百度更新了吧。主要是我看的時候有看到很視頻教程一樣關鍵字,就沒仔細去找直接參考視頻教程里的了。然后鏈接解析這塊搞定了。第二部分就是標題和內容主要是我一些名字寫錯了,我把【class_】寫成【Class】因為編程器自動提示有Class還是有色的我以為就是他了。最后這個網頁解析器弄完,我又直接對主程序進行運行,這次完美運行。
雖然速度比較慢,生出來的網頁排版很詭異,抓到內容更詭異。但畢竟是第一次,趕緊發個帖子留戀一下
下一步目標: 1.生成Excel表格,生成網頁有屁用,還這么難看 2.用多線程,再高級就是用分布式了,畢竟電腦這么多等我去搞
配圖:
杭州python學習交流群 616744861
新聞熱點
疑難解答