提起python做網絡爬蟲就不得不說到強大的組件urllib2。在python中正是使用urllib2這個組件來抓取網頁的。urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。它以urlopen函數的形式提供了一個非常簡單的接口。通過下面的代碼簡單感受一下urllib2的功能;
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html
運行結果如下;
查看http://www.baidu.com/源代碼發現跟以上運行結果完全一樣。這里的URL除了http:還可以是ftp:或file:
urllib2用一個Request對象來映射提出的HTTP請求。你可以創建一個Request對象,通過調用urlopen并傳入Request對象,將返回一個相關請求response對象,這個應答對象如同一個文件對象,所以你可以在Response中調用.read()。修改代碼如下;
import urllib2 req = urllib2.Request('http://www.baidu.com') response = urllib2.urlopen(req) page = response.read() print page
發現運行結果跟修改前一樣。同時在http請求前你還需要做以下事1、發送表單數據。2、設置headers信息。
1、發送表單數據;常見于模擬登錄時,一般的在登錄操作時需要發送數據到服務器。這里主要用到post方法,一般的HTML表單,data需要編碼成標準形式。然后做為data參數傳到Request對象。編碼工作使用urllib的函數而非urllib2。測試代碼如下
import urllib import urllib2 url = 'http://www.server.com/register.php' postData = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } data = urllib.urlencode(postData) # 編碼工作 req = urllib2.Request(url, data) # 發送請求同時傳data response = urllib2.urlopen(req) #接受反饋的信息 page = response.read() #讀取反饋的內容
同時urllib2還可以使用get方法傳送數據。代碼如下;
import urllib2 import urllib data = {} data['useid'] = 'user' data['pwd'] = '***' data['language'] = 'Python' values = urllib.urlencode(data) print values name=Somebody+Here&language=Python&location=Northampton url = 'http://www.example.com/example.php' full_url = url + '?' + url_values data = urllib2.open(full_url)
2、設置headers信息;有些站點對訪問來源做了限制,所以這里模擬User-Agent頭,代碼如下;
import urllib import urllib2 url = 'http://www.server.com/register.php' user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' values = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) req = urllib2.Request(url, data, headers) response = urllib2.urlopen(req) page = response.read()
urllib2就介紹到這里啦!
異常處理
通常URLError在沒有網絡連接時或者服務器地址不可達時產生,在這種情況下異常會帶有resaon屬性包含了錯誤號和錯誤信息。如下代碼測試效果;
import urllib import urllib2 url = 'http://www.server.com/register.php' user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' values = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) req = urllib2.Request(url, data, headers) response = urllib2.urlopen(req) page = response.read()
查閱相關資料后顯示Errno 10061表示服務器端主動拒絕。
除此之外還有HTTPError,當客戶端與服務器之間建立正常連接時,urllib2將開始處理相關數據。如果遇到不能處理的情況就會產生相應的HTTPError,如網站訪問常見的錯誤碼”404″(頁面無法找到),”403″(請求禁止),和”401″(帶驗證請求)等……HTTP狀態碼表示HTTP協議的響應情況,常見的狀態碼見HTTP狀態碼詳解。
HTTPError會帶有一個'code'屬性,是服務器發送的錯誤號。當一個HTTPError產生后服務器會返回一個相關的錯誤號和錯誤頁面。如下代碼驗證;
import urllib2 req = urllib2.Request('http://www.python.org/callmewhy') try: urllib2.urlopen(req) except urllib2.URLError, e: print e.code
輸出404代碼,說明找不到頁面。
捕捉異常并處理……實現代碼如下;
#-*- coding:utf-8 -*-from urllib2 import Request, urlopen, URLError, HTTPError req = Request('http://www.python.org/callmewhy') try: response = urlopen(req) except URLError, e: if hasattr(e, 'code'): print '服務器不能正常響應這個請求!' print 'Error code: ', e.code elif hasattr(e, 'reason'): print '無法與服務器建立連接' print 'Reason: ', e.reason else: print '沒有出現異常'
成功捕捉到異常!