亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登錄(記錄)

2019-11-06 08:01:17
字體:
來源:轉載
供稿:網友

問題引入

開始鏈家爬蟲的時候,了解到需要實現模擬登錄,不登錄不能爬取三個月之內的數據,目前暫未驗證這個說法是否正確,這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登錄網站(鏈家)的內部邏輯過程,花了一個周末的時間,部分問題暫未解決。

思路介紹

利用瀏覽器(IE11)的開發者工具,啟用網絡流量捕獲,在調試之前,先做一些配置上的準備工作:清除舊的cookie和緩存,禁用跳轉后清除日志(Firefox在開發工具的Settings設置中勾上啟用持續日志)。

鏈家的模擬登錄_01清除瀏覽器緩存和Cookie

鏈家的模擬登錄_02禁用跳轉后清除日志

首先簡要介紹一下模擬登錄網站的基本邏輯,模擬網站登錄需要知道,要向什么url地址,發送什么樣的數據,GET請求還是POST請求。GET請求從服務器請求數據,不需要post data,但是經常需要在url后面加上對應的query parameter,類似?para1=value1&para2=value2之類的形式,本質上有點類似于post data。POST請求需要提供對應的post data,對應工具中的Request Body。而剩下的,是設置發送請求時的相關參數,包括user-agent等,對應工具中的Request Headers。提交請求后,網站服務器返回Response Headers和Response Body。其中,還經常涉及到cookie信息,在發送前,準備好,發送給服務器,服務器返回的信息中,往往也包含更新后的cookie值。

總結一下,主要關注點:Request Headers、Request BodyResponse Headers、Response Body、Cookie。

打開IE11后,調出工具,切換到網絡界面,打開鏈家,過濾HTML請求,可以看到,頁面跳轉到http://gz.lianjia.com/,服務器返回的Response Headers里面設置了一些cookie,如lianjia_ssidlianjia_uuid。

鏈家的模擬登錄_03打開www.lianjia.com

鏈家的模擬登錄_04打開gz.lianjia.com

點擊登錄,然后輸入用戶名和密碼,正常登錄。

找到登錄網站所涉及的最核心的地址,對于此,我們可以通過搜索在哪里發送了我們的密碼??梢钥吹?,和我們密碼相關的url地址為https://passport.lianjia.com/cas/login。即以后如果寫代碼,所要訪問的url地址,就是這個地址了。

鏈家的模擬登錄_05登錄postdata

分析所提交的數據(post data)中的參數和值,這就是模擬網站登錄的核心數據了,是在寫代碼時,對于url=https://passport.lianjia.com/cas/login提交POST請求時,要發送的一些參數和值。

username=XXXXXXXXXXXpassWord=XXXXXXXXXXverifycode=service=http%3A%2F%2Fgz.lianjia.com%2FisAjax=truecode=lt=LT-99999-9HQFRxGdmePMdsCSnTeH9h2ne26uQbnWqN2

接下來,分析這些值是如何來的。例如lt值,搜索LT-99999,發現來自https://passport.lianjia.com/cas/PRelogin/loginTicket?

鏈家的模擬登錄_06lt值

分析Cookie,在最核心的地址https://passport.lianjia.com/cas/login的Request Headers中,lianjia_ssid、lianjia_uuidJsessionID,其中lianjia_ssid、lianjia_uuid通過先訪問其他頁面獲取,現在接著去找名為JSESSIONID的Cookie,是從哪里來的,所以,能想到的,就是先去搜索JSESSIONID,搜索出來的第一個url地址是https://passport.lianjia.com/cas/prelogin/loginTicket?。很明顯,其就是我們所期望的,因為其中的JSESSIONID是通過Set-Cookie所獲得的,是訪問服務器的某個地址https://passport.lianjia.com/cas/prelogin/loginTicket?,然后服務器所返回的Cookie值。

鏈家的模擬登錄_07登錄Cookie

鏈家的模擬登錄_08JSESSIONID

而對于模擬登錄網站中,所涉及的其他Cookie、其他參數的值,可參考上述的邏輯,去一點點分析,找到最終的某個值的來源,然后才能用程序模擬。

總結模擬登錄鏈家的基本流程

至此,對于想要模擬登錄鏈家的內部邏輯過程,基本上清楚了。

順序 訪問地址 訪問類型 發送的數據 需要獲得/提取的返回的值
1 http://gz.lianjia.com/ GET lianjia_ssid, lianjia_uuid
2 https://passport.lianjia.com/cas/prelogin/loginTicket? GET 從返回的html中提取lt值,需要驗證返回的Cookie中,是否包含JSESSIONID
3 https://passport.lianjia.com/cas/login POST post data,其中lt值是之前提取出來的 驗證返回的html和Cookie

待解決問題

在通過Python實現的時候,利用如上的流程,發現實際上行不通,登錄失敗。這里提出幾個未解決的問題。

如何驗證模擬登錄網站已成功了呢?

按理,在通過最后一步訪問地址為https://passport.lianjia.com/cas/login時,帶上賬號、密碼、提取的lt值,已獲取JSESSIONID值的情況下,通過返回的html代碼或cookie值,是可以判斷模擬登錄網站已成功的,然而在進一步分析數據來源的時候,發現有一個lianjia_token在登錄后的頁面經常出現,不知在模擬登錄過程中是否需要用到?是否需要獲取到lianjia_token才算成功?也不知是如何得到的?和JS腳本是否有關系?

鏈家的模擬登錄_09登錄成功html

鏈家的模擬登錄_10登錄成功Cookie

鏈家的模擬登錄_11lianjia_token

微信公眾號「數據分析」,分享數據科學家的自我修養,既然遇見,不如一起成長。

數據分析


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
日韩最新免费不卡| 久久亚洲精品网站| 在线观看欧美日韩国产| 亚洲精品网址在线观看| 国产精品日韩在线播放| 91精品在线影院| 国产精品视频xxxx| 91精品美女在线| 久久久av一区| 91av国产在线| 亚洲的天堂在线中文字幕| 久久亚洲国产精品成人av秋霞| 欧美裸体男粗大视频在线观看| 成人精品久久一区二区三区| 久久91精品国产91久久跳| 久久久av一区| 久久综合五月天| 中文字幕九色91在线| 亚洲国产成人一区| 久久免费少妇高潮久久精品99| 久久在线观看视频| 91系列在线观看| 欧美激情第三页| 欧美性猛交xxxxx免费看| 欧美高清视频在线观看| 国产成人涩涩涩视频在线观看| 日本在线精品视频| 亚洲精品乱码久久久久久金桔影视| 91情侣偷在线精品国产| 91久久国产综合久久91精品网站| 欧美精品第一页在线播放| 亚洲人成五月天| 欧美电影免费在线观看| 成人午夜两性视频| 伊人久久免费视频| 国产精品视频自在线| 精品亚洲夜色av98在线观看| 91在线观看免费观看| 91国内精品久久| 国产精品久久久久久久久借妻| 视频在线观看99| 亚洲人成伊人成综合网久久久| 91色视频在线观看| 久久婷婷国产麻豆91天堂| 精品日韩中文字幕| 亚洲直播在线一区| 色老头一区二区三区| 4p变态网欧美系列| 久久精视频免费在线久久完整在线看| 精品香蕉一区二区三区| 一区二区三区四区精品| 伊人久久大香线蕉av一区二区| 欧美理论片在线观看| 成人免费大片黄在线播放| 欧美大尺度激情区在线播放| 亚洲性日韩精品一区二区| 欧美性猛交xxxx乱大交3| 一区国产精品视频| 91精品国产亚洲| 正在播放欧美视频| 欧美成aaa人片在线观看蜜臀| 国产最新精品视频| 国产欧美精品在线| 裸体女人亚洲精品一区| 国产成人久久精品| 国产精品美乳一区二区免费| 日韩av网站电影| 庆余年2免费日韩剧观看大牛| 久久精品久久久久电影| 亚洲成人亚洲激情| 97超级碰碰碰| 欧美精品生活片| 麻豆国产va免费精品高清在线| 一区国产精品视频| 国产精品一区av| 欧美壮男野外gaytube| 亚洲va男人天堂| 国产精品96久久久久久| 久久这里有精品视频| 国产精品视频一区二区三区四| 久久久久国产精品免费| 久久久久国产精品www| 狠狠躁夜夜躁人人爽天天天天97| 国产精品一区二区3区| 日韩电影网在线| 永久免费精品影视网站| 国产福利视频一区| 亚洲 日韩 国产第一| 日韩精品免费综合视频在线播放| 亚洲在线一区二区| 美女少妇精品视频| 国产成人精品一区二区三区| 久久久久久国产精品美女| 在线视频欧美日韩精品| 欧美成人免费全部观看天天性色| 久久天天躁狠狠躁夜夜躁| 亚洲欧美三级伦理| 中文字幕日韩在线观看| 国产91色在线|| 国产精品一区av| 国产精品av在线| 亚洲精品之草原avav久久| 亚洲精品国产综合久久| 久久综合久久八八| 亚洲免费电影一区| 另类专区欧美制服同性| 午夜精品久久久久久久99热| 欧美精品免费在线观看| 国产精品1区2区在线观看| 午夜精品视频在线| 欧美精品videofree1080p| 久久偷看各类女兵18女厕嘘嘘| 亚洲欧洲高清在线| 亚洲天堂久久av| 日韩av在线免费观看一区| 丝袜亚洲另类欧美重口| 中文字幕日韩欧美在线| 亚洲九九九在线观看| 欧美做爰性生交视频| 日韩中文综合网| 日本免费一区二区三区视频观看| 亚洲自拍小视频免费观看| 91精品久久久久久久久久| 午夜精品一区二区三区视频免费看| 日韩中文在线视频| 日韩中文在线中文网三级| 亚洲精品一区二区在线| 久久频这里精品99香蕉| 成人免费观看49www在线观看| 亚洲欧美中文日韩在线| 国产视频自拍一区| 久久精品视频在线观看| 欧美性极品xxxx娇小| 久久精品国产69国产精品亚洲| 日本精品一区二区三区在线| 久久天天躁狠狠躁老女人| 亚洲欧美制服中文字幕| 日韩欧美在线中文字幕| 91性高湖久久久久久久久_久久99| 久久免费视频网站| 中文字幕综合一区| 国产精品美女久久久久av超清| 亚洲欧美国产精品专区久久| 中文字幕欧美日韩va免费视频| 国产精品免费一区豆花| 久操成人在线视频| 欧美性色视频在线| 欧美成人国产va精品日本一级| 亚洲一区免费网站| 久久亚洲国产精品| 精品中文字幕在线观看| 欧美黑人极品猛少妇色xxxxx| 日本a级片电影一区二区| 亚洲天堂网站在线观看视频| 久久躁狠狠躁夜夜爽| 精品亚洲一区二区三区四区五区| 国产第一区电影| 亚洲新声在线观看| 欧美日韩免费网站| 91伊人影院在线播放| 亚洲精品中文字| 亚洲国产欧美一区二区丝袜黑人| 欧美激情精品久久久久久蜜臀| 成人h视频在线观看播放|