import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return htmldef getTxt(html): html_txt = str(html, encoding="utf-8") start = html_txt.find("<h1>") + 4 end = html_txt.find('</h1>') txt = html_txt[start:end]+"/n" start = html_txt.find('<div id="content">') + 25 end = html_txt.find('<scrPRint(count)這是用python 3.4寫的一個扒取大主宰的一個小項目
最近在看python 3,沒學過python2.x照著網上的一些關于python2.x寫的關于一些關于網絡爬蟲的代碼(http://www.49028c.com/fnng/p/3576154.html)寫了這個扒取筆趣閣上大主宰的代碼
但是我卻覺得不是很好,也請各路大神指教
下面我先說在此過程中遇到的一些問題
1、我不是很了解什么事網絡爬蟲,也不知道如何篩選有用的URL,所以寫的代碼很僵硬,沒有很好的移植性
2、在扒取正文正文時遇到過一個問題,遇到一些非法字符不能讀取
希望以后的學習中能改善這些題
新聞熱點
疑難解答