1.cookie的作用
cookie 是指某些網站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據,就像有些網站上的一些數據是需要登錄后才能看得到,那么想抓取某個頁面內容,就需要用到cookie來模擬登陸了。
在用cookie模擬登陸的時候,需要用到python中的CookieJar
,CookieJar中有一些子類,例如:
MozillaCookieJar
和LWPCookieJar
類都是FileCookieJar
的子類。實現了具體的把cookie內容保存為文件的方法。只是這兩個類對應的標準不同而已。
2 獲取cookie
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfrom urllib.parse import urlencodeimport ssl# ----------------------------------------獲取cookie---------------------------# 生成一個管理cookie的對象cookie_obj = CookieJar()# 創建一個支持cookie的對象,對象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie_obj) #創建一個openeropener = build_opener(cookie_handler) response = opener.open('http://www.baidu.com')print(response)#打印cookiefor cookie in cookie_obj: print('key:',cookie.name) print('value:',cookie.value)
3 保存cookie的文件
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfilename = 'neihan.txt'# 設置cookie保存的文件cookie_obj = LWPCookieJar(filename=filename)# 創建一個支持cookie的對象,對象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie_obj)#創建一個openeropener = build_opener(cookie_handler)#請求網頁response = opener.open('http://www.neihanshequ.com')# 保存cookie到指定的文件當中去# ignore_expires=True 即便目標cookie已經在文件中存在,仍然對其寫入# ignore_discard=True 即便cookie將要/已經過期,仍然寫入cookie_obj.save(ignore_expires=True,ignore_discard=True)
4 使用本地的cookie進行請求
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openercookie = LWPCookieJar()#從文件中讀取cookie到變量cookie.load('neihan.txt')request = Request('http://www.neihanshequ.com')# 創建一個支持cookie的對象,對象屬于HTTPCookieProcessorcookie_handler = HTTPCookieProcessor(cookie)#創建一個openeropener = build_opener(cookie_handler)#請求網頁response = opener.open(request)# print(response.read().decode())
5 使用cookie進行模擬登陸
from http.cookiejar import CookieJar,LWPCookieJarfrom urllib.request import Request,urlopen,HTTPCookieProcessor,build_openerfrom urllib.parse import urlencodeimport sslcookie = LWPCookieJar(filename='meishi.txt')cookie_handler = HTTPCookieProcessor(cookie)opener = build_opener(cookie_handler)headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}post_url = 'https://i.meishi.cc/login.php?redirect=https%3A%2F%2Fi.meishi.cc%2Flogin.php%3Fac%3Dzhuce'# urlencode對url當中的參數進行編碼# urlencode()編碼的對象為字典類型post_data = urlencode({ 'username':'***********', #自己的登陸賬號 'password':'************' #自己的登陸密碼})# 請求url 并傳參,設置編碼方式request = Request(post_url,bytes(post_data,encoding='utf-8'))# 解決證書問題ssl._create_default_https_context = ssl._create_unverified_contextresponse = opener.open(request)print(response.read().decode())cookie.save(ignore_discard=True,ignore_expires=True)
新聞熱點
疑難解答