亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

nodejs爬蟲遇到的亂碼問題匯總

2019-11-19 16:54:19
字體:
來源:轉載
供稿:網友

上一篇文章中使用nodejs程序解析了網頁編碼為gbk,gb2312,以及utf-8的情況,這里面有三種特殊的亂碼情況需要單獨的說明一下.

1,網頁編碼為utf-8,但是解析為亂碼,代表網站為www.guoguo-app.com。

這個問題真是個逗逼問題,查看網頁源碼中給出的編碼方式為utf8,如下:

<meta charset="UTF-8"><title>查快遞</title>

由于解析出來的始終是亂碼,我就抓包看了下,報文中的編碼方式為gbk,果然我使用gbk的方式之后,得到的不再是亂碼了。淘寶為了反爬蟲也是操碎了新,但是我也很好奇這種方式是怎么實現的,知道的告訴我。

GET / HTTP/1.1Host: www.guoguo-app.comConnection: closeHTTP/1.1 200 OKDate: Thu, 06 Apr 2017 01:56:23 GMTContent-Type: text/html;charset=GBKTransfer-Encoding: chunkedConnection: closeVary: Accept-EncodingVary: Accept-EncodingContent-Language: zh-CNServer: Tengine/Aserver

1,網頁編碼為utf-8,解析為亂碼情況二,代表網站http//andersonjiang.blog.sohu.com/

單純的查看網頁源碼看不出任何毛病,于是我又抓了一次包,得到如下情形:

GET / HTTP/1.1Host: andersonjiang.blog.sohu.comConnection: closeHTTP/1.1 200 OKContent-Type: text/html; charset=GBKTransfer-Encoding: chunkedConnection: closeServer: nginxDate: Thu, 06 Apr 2017 02:10:33 GMTVary: Accept-EncodingExpires: Thu, 01 Jan 1970 00:00:00 GMTRHOST: 192.168.110.68@11177Pragma: No-cacheCache-Control: no-cacheContent-Language: en-USContent-Encoding: gzipFSS-Cache: MISS from 13539701.18454911.21477824FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com這個網站同時采用了Transfer-Encoding: chunked傳輸編碼和Content-Encoding: gzip內容編碼功能,由于nodejs爬蟲沒有gzip解包功能,因此該網站提取不到任何字段,即title和charset等。要想提取此類網站則要添加gzip解包功能。

下面兩個網站www.cr173.com以及www.csdn.net是正常的抓包情況。

GET / HTTP/1.1Host: www.cr173.comConnection: closeHTTP/1.1 200 OKExpires: Thu, 06 Apr 2017 02:42:20 GMTDate: Thu, 06 Apr 2017 02:12:20 GMTContent-Type: text/htmlLast-Modified: Thu, 06 Apr 2017 00:52:42 GMTETag: "96a4141970aed21:0"Cache-Control: max-age=1800Accept-Ranges: bytesContent-Length: 158902Accept-Ranges: bytesX-Varnish: 1075189606Via: 1.1 varnishX-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)Connection: closeGET / HTTP/1.1Host: www.csdn.netConnection: closeHTTP/1.1 200 OKServer: openrestyDate: Thu, 06 Apr 2017 02:18:59 GMTContent-Type: text/html; charset=utf-8Content-Length: 99363Connection: closeVary: Accept-EncodingLast-Modified: Thu, 06 Apr 2017 02:10:02 GMTVary: Accept-EncodingETag: "58e5a37a-18423"Accept-Ranges: bytes

3,網頁編碼為其他形式的編碼,解析為亂碼,例如:

(1)編碼為Big5,代表網站為 www.ruten.com.tw, www.ctgoodjobs.hk

(2)編碼為Shift_JIS,代表網站為www.vector.co.jp,www.smbc.co.jp

(3)編碼為windows-12,代表網站為www.tff.org,www.pravda.com.ua

(4)編碼為EUC-JP,代表網站為www.showtime.jp

(5)編碼為EUC-KR ,代表網站為www.incruit.com,www.samsunghospital.com,

由于iconv-lite的說明中支持如下的編碼方式:

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'. Base encodings: 'latin1' Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'. Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此對于上述出現的網頁編碼,只有自己添加解碼方式加以解決了。

總之要寫一個通用的爬蟲程序還有很長的路要走。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
成人福利视频在线观看| 欧美高跟鞋交xxxxxhd| 国产精品27p| 欧美黑人xxx| 成人性教育视频在线观看| 国产亚洲激情视频在线| 日韩精品免费在线播放| 日韩欧美a级成人黄色| 日韩一区二区久久久| 日韩国产欧美精品一区二区三区| 国产亚洲欧美视频| 国产精品视频久久久久| 久久久久久中文字幕| 久久免费国产精品1| 亚洲人成网站777色婷婷| 亚洲在线免费观看| 久久久久久免费精品| 91在线观看免费观看| 久久久精品国产| 色哟哟入口国产精品| www.久久色.com| 最近中文字幕mv在线一区二区三区四区| 欧美猛男性生活免费| 欧美日韩国产综合新一区| 欧美性感美女h网站在线观看免费| 亚洲激情在线观看视频免费| 一区二区在线视频播放| 理论片在线不卡免费观看| 国产精品九九九| 日韩美女在线观看一区| 欧美一级淫片aaaaaaa视频| 国内免费久久久久久久久久久| 亚洲夜晚福利在线观看| 亚洲韩国日本中文字幕| 亚洲精品456在线播放狼人| 亚洲欧美制服第一页| 日韩免费高清在线观看| 欧美日韩国产一区二区| 亚洲欧洲免费视频| 欧美黑人巨大精品一区二区| 国产成人啪精品视频免费网| 午夜精品久久久久久久99热| 97精品国产97久久久久久免费| 91九色单男在线观看| 欧美成人亚洲成人日韩成人| 亚洲国产成人91精品| 国产欧美在线视频| 午夜精品免费视频| 国产视频久久久久久久| 亚洲精品动漫久久久久| 91香蕉嫩草影院入口| 日韩欧美第一页| 亚洲欧美综合图区| 国产精品一区久久久| 欧美视频在线观看 亚洲欧| 久久久之久亚州精品露出| 国产精品都在这里| 亚洲免费一在线| 欧美日韩裸体免费视频| 亚洲bt天天射| 97在线视频精品| 亚洲国产天堂久久国产91| 欧美国产日韩xxxxx| 亚洲深夜福利网站| 91天堂在线视频| 中文字幕久热精品在线视频| 亚洲国产精品悠悠久久琪琪| 亚洲精品电影网在线观看| 国产亚洲人成a一在线v站| 亚洲最新中文字幕| 久久免费国产视频| 97免费视频在线播放| 国模视频一区二区三区| 色小说视频一区| 亚洲国产成人一区| 色午夜这里只有精品| 亚洲性猛交xxxxwww| 一夜七次郎国产精品亚洲| 亚洲人高潮女人毛茸茸| 亚洲电影免费观看高清完整版| 欧美激情在线视频二区| 国产91精品久久久久久久| 国产成人激情小视频| 久久久最新网址| 日本精品久久中文字幕佐佐木| 色悠悠久久久久| 国产999精品久久久影片官网| 一本色道久久88精品综合| 欧美电影免费播放| 91网站在线看| 国产一区私人高清影院| 美女视频黄免费的亚洲男人天堂| 欧洲成人在线视频| 久久精品国产亚洲一区二区| 国产欧美日韩精品丝袜高跟鞋| xxxx欧美18另类的高清| 这里只有精品在线播放| 欧美性感美女h网站在线观看免费| 国产欧美日韩高清| 一区二区在线视频播放| 日韩一区二区在线视频| 欧美激情一区二区三级高清视频| 4p变态网欧美系列| 亚洲国产欧美在线成人app| 国产精品丝袜视频| 欧美日产国产成人免费图片| 国产精品www网站| 成人精品久久一区二区三区| 久久精品久久精品亚洲人| 国产精品久久久久高潮| 欧美视频一二三| 国产黑人绿帽在线第一区| 欧美黑人视频一区| 日本久久久a级免费| 2019日本中文字幕| 国产伦精品免费视频| 精品国产欧美成人夜夜嗨| 亚洲香蕉伊综合在人在线视看| 91久久久久久久久| 欧美综合一区第一页| 午夜伦理精品一区| 欧美裸体xxxx极品少妇软件| 亚洲老板91色精品久久| 国产z一区二区三区| 26uuu另类亚洲欧美日本一| 日韩资源在线观看| 国产精品丝袜白浆摸在线| 91精品国产色综合久久不卡98| 伊人久久久久久久久久| 精品人伦一区二区三区蜜桃免费| 中文字幕一区二区三区电影| 国产97免费视| 国产日韩欧美视频| 欧美极品在线视频| 日韩免费av一区二区| 亚洲精品国产精品乱码不99按摩| 久久免费视频这里只有精品| 成人在线国产精品| 性金发美女69hd大尺寸| 欧美第一淫aaasss性| 亚洲午夜久久久久久久| 色偷偷9999www| 日韩电影中文 亚洲精品乱码| 欧美高清视频免费观看| 久久精品91久久香蕉加勒比| 日韩亚洲综合在线| 欧美一区二区大胆人体摄影专业网站| 成人性生交xxxxx网站| 成人久久久久久| 国产精品欧美一区二区三区奶水| 日本精品一区二区三区在线| 久久久国产精品免费| 国产高清视频一区三区| 欧美亚州一区二区三区| 韩国视频理论视频久久| 精品国产一区二区三区久久久狼| 国产精品热视频| 九色91av视频| 国产日韩亚洲欧美| 久久99精品国产99久久6尤物| 久久久www成人免费精品| 成人黄色av播放免费| 欧美最猛黑人xxxx黑人猛叫黄| 91在线观看免费|