亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

解決網爬工具爬取頁面信息出現亂碼的問題

2019-11-18 16:43:05
字體:
來源:轉載
供稿:網友

問題:
   網爬工具中自動搜集頁面信息時,有的頁面出現了出現亂碼現象
原因:
   讀取頁面信息是使用了錯誤的編碼類型。C#.NET從現在的類中獲取得來的編碼信息有時是錯誤的,本人認為對不是asp.net的應用程序,它讀過來的編碼信息都是錯誤的。
解決:
   思路:必須先在運行時獲取得該頁面的編碼,再去讀取頁面的內容,這樣得來的頁面內容才不會出現亂碼現象。
   方法:
   1:使用ASCII編碼去讀取頁面內容。
   2:使用正則表達式從讀取的頁面內容中篩選出頁面的編碼信息。上個步驟獲取的頁面信息可能會有亂碼。但HTML標志是正確的,所有可以從HTML標志中得到編碼的信息。
   3.用正確的編碼類型去讀取頁面信息。
   如果哪位有更好的方法,請多賜教??!

  
   下面附上代碼:   

代碼演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularExPRessions;
namespace charset
{
    class Program
    {
       
        static void Main(string[] args)
        {
            string url = "            GetCharset1(url);
            GetChartset2(url);

            Console.Read();
        }
        // 通過HttpWebResponse直接獲取頁面編碼
        static void GetCharset1(string url)
        {
            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

                string charset = webResponse.CharacterSet;
                string contentEncoding = webResponse.ContentEncoding;
                string contentType = webResponse.ContentType;

                Console.WriteLine("context type:{0}", contentType);

                Console.WriteLine("charset:{0}", charset);

                Console.WriteLine("content encoding:{0}", contentEncoding);
                //測試或取頁面是否出現亂碼
                //Console.WriteLine(getHTML(url,charset));
               
            }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
           
           
            

        }
        //使用正則表達式獲取頁面編碼
        static void GetChartset2(string url)
        {

            try
            {
                string html = getHTML(url,Encoding.ASCII.EncodingName);
                Regex reg_charset = new Regex(@"charset/b/s*=/s*(?<charset>[^""]*)");
                string enconding = null;
                if (reg_charset.IsMatch(html))
                {
                    enconding = reg_charset.Match(html).Groups["charset"].Value;
                    Console.WriteLine("charset:{0}",enconding);
                }
                else
                {
                    enconding = Encoding.Default.EncodingName;
                }
                //測試或取頁面是否出現亂碼
                //Console.WriteLine(getHTML(url,enconding));
             }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
            }
            catch(WebException ex)
            {
           
                Console.WriteLine(ex.Message);
            }
       
        }
        //讀取頁面內容方法
        static string  getHTML(string url,string encodingName)
        {

            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                WebResponse webResponse = webRequest.GetResponse();
                Stream stream = webResponse.GetResponseStream();
                StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(encodingName));
                string html = sr.ReadToEnd();
                return html;
            }
            catch (UriFormatException ex)
            {

                Console.WriteLine(ex.Message);
                return null;
            }
            catch (WebException ex)
            {

                Console.WriteLine(ex.Message);
                return null;
            }
        }
       
    }
}

 http://www.gdqy.edu.cn頁面的使用的編碼格式是:gb2312
第一個方法顯示的內容是:
context type:text/html
charset:ISO-8859-1
content encoding:
第二個方法顯示的內容是:
charset:gb2312

所以第一個方法獲取的信息是錯誤的,第二個方法是對的。
為什么第一個方法獲取的的編碼格式是:ISO-8859-1呢?
我用Reflector反射工具獲取了CharacterSet屬性的源代碼,從中不難看出其原因。如果能獲取出ContentType屬性的源代碼就不以看出其出錯的原因了,但是搞了許久都沒找出,如果那位那補上,那就太感謝了。
下面我附上Reflector反射工具獲取了CharacterSet屬性的源代碼,有興趣的朋友看一看。

CharacterSet源碼
public string CharacterSet
{
      get
      {
            this.CheckDisposed();
            string text1 = this.m_HttpResponseHeaders.ContentType;
            if ((this.m_CharacterSet == null) && !ValidationHelper.IsBlankString(text1))
            {
                  this.m_CharacterSet = string.Empty;
                  string text2 = text1.ToLower(CultureInfo.InvariantCulture);
                  if (text2.Trim().StartsWith("text/"))
                  {
                        this.m_CharacterSet = "ISO-8859-1";
                  }
                  int num1 = text2.IndexOf(";");
                  if (num1 > 0)
                  {
                        while ((num1 = text2.IndexOf("charset", num1)) >= 0)
                        {
                              num1 += 7;
                              if ((text2[num1 - 8] == ';') || (text2[num1 - 8] == ' '))
                              {
                                    while ((num1 < text2.Length) && (text2[num1] == ' '))
                                    {
                                          num1++;
                                    }
                                    if ((num1 < (text2.Length - 1)) && (text2[num1] == '='))
                                    {
                                          num1++;
                                          int num2 = text2.IndexOf(';', num1);
                                          if (num2 > num1)
                                          {
                                                this.m_CharacterSet = text1.Substring(num1, num2).Trim();
                                                break;
                                          }
                                          this.m_CharacterSet = text1.Substring(num1).Trim();
                                          break;
                                    }
                              }
                        }
                  }
            }
            return this.m_CharacterSet;
      }

http://www.49028c.com/xuanfeng/archive/2007/01/21/626296.html


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
成人欧美一区二区三区在线| 欧美肥婆姓交大片| 亚洲成人激情在线| 亚洲成人av在线| 欧美日本精品在线| 久久国产精品久久久久久| 久久97精品久久久久久久不卡| 国产69精品99久久久久久宅男| 中文字幕av一区中文字幕天堂| 亚洲影院污污.| 欧美激情乱人伦| 热久久免费国产视频| 啪一啪鲁一鲁2019在线视频| 欧美日韩高清区| 久久九九免费视频| 在线看福利67194| 国产精品一区av| 欧美激情免费在线| 成人免费视频xnxx.com| 美女久久久久久久| 久久全国免费视频| 国产成人在线精品| 91九色在线视频| 亚洲美女免费精品视频在线观看| 亚洲精选一区二区| 精品国产一区久久久| 欧美高跟鞋交xxxxxhd| 国产精品久久婷婷六月丁香| 成人做爰www免费看视频网站| 亚洲欧美成人一区二区在线电影| 午夜免费久久久久| 欧美理论电影在线观看| 国产在线不卡精品| 在线视频免费一区二区| 久久久精品999| 国产亚洲视频中文字幕视频| 精品视频在线观看日韩| 68精品国产免费久久久久久婷婷| 国产成人高潮免费观看精品| 亚洲毛片在线观看| 久久99久国产精品黄毛片入口| 国产精品美女在线| 国产精品久久久久久久久久新婚| 亚洲精品99久久久久中文字幕| 狠狠色噜噜狠狠狠狠97| 亚洲美女动态图120秒| 91国自产精品中文字幕亚洲| 欧美最猛性xxxxx亚洲精品| 欧美专区福利在线| 欧美三级免费观看| 精品福利在线观看| 成人美女免费网站视频| 岛国视频午夜一区免费在线观看| 久久99精品久久久久久噜噜| 欧美与黑人午夜性猛交久久久| 国产精品视频专区| 欧美日韩国产一中文字不卡| 欧美亚洲午夜视频在线观看| 国产精品免费久久久久久| 国产精品成熟老女人| 日韩亚洲欧美中文在线| 国产精品一久久香蕉国产线看观看| 亚洲第一天堂无码专区| 亚洲视屏在线播放| 欧美精品18videos性欧| 91网站免费看| 亚洲国产精品久久久| 亚洲欧美国产精品专区久久| 日韩精品一区二区三区第95| 成人黄色午夜影院| 久久精品小视频| 性夜试看影院91社区| 国外日韩电影在线观看| 九色91av视频| 日韩在线播放视频| www.99久久热国产日韩欧美.com| 正在播放欧美一区| 国产精品久久久久久久电影| 91热福利电影| 91亚洲精品在线观看| 成人网在线免费观看| 中文字幕在线看视频国产欧美在线看完整| 亚洲加勒比久久88色综合| 亚洲精品理论电影| 国产精品网站大全| 亚洲午夜未删减在线观看| 国产精品主播视频| 亚洲视频在线观看网站| 日韩精品福利网站| 欧洲成人性视频| 欧美做受高潮1| 永久555www成人免费| 欧美激情亚洲视频| 日韩电影中文字幕av| 国产一区二区三区欧美| 国产精品露脸自拍| 久久99久久99精品免观看粉嫩| 亚洲成人av片在线观看| 国产精品高潮呻吟久久av野狼| 欧美在线日韩在线| 成人精品在线观看| 国产在线精品一区免费香蕉| 国产欧美日韩亚洲精品| 亚洲人成在线观看| 亚洲美女激情视频| 国产精品自拍视频| 91久久精品国产| 亚洲欧美激情另类校园| 亚洲色图综合久久| 亚洲色图第三页| 精品性高朝久久久久久久| 日韩精品在线观看一区二区| 菠萝蜜影院一区二区免费| 这里精品视频免费| 国产精品91在线观看| 亚洲国产日韩欧美综合久久| 成人免费视频在线观看超级碰| 国产精品美女主播在线观看纯欲| 国产精品久久久久久久久久| 国产成人jvid在线播放| 久久国产天堂福利天堂| 日韩精品视频在线播放| 欧美又大又粗又长| 欧美xxxx做受欧美.88| 91免费看视频.| 亚洲免费一级电影| 欧美激情一区二区三级高清视频| 欧美高清在线视频观看不卡| 91久久精品国产91久久性色| 久青草国产97香蕉在线视频| 日韩av在线免费播放| 欧美激情国产精品| 日本在线精品视频| 亚洲美女动态图120秒| 91在线观看免费网站| 国产亚洲精品综合一区91| 亚洲欧美日韩国产中文| 自拍偷拍亚洲欧美| 久久激情视频免费观看| 66m—66摸成人免费视频| 国产精品视频精品| 欧美亚洲日本网站| 自拍偷拍免费精品| 亚洲天天在线日亚洲洲精| 成人动漫网站在线观看| 日韩在线欧美在线| 日韩精品一二三四区| 国产精品免费在线免费| 亚洲中国色老太| 亚洲精品国产精品乱码不99按摩| 国产精品视频最多的网站| 精品国偷自产在线视频99| 91色中文字幕| 亚洲欧美制服第一页| 久久精品国产电影| 国产成人午夜视频网址| 成人黄色免费网站在线观看| 欧美激情久久久久久| 国产亚洲人成a一在线v站| 国产丝袜一区视频在线观看| 亚洲欧美中文日韩在线v日本| 8x海外华人永久免费日韩内陆视频| 中文字幕综合在线| 国产亚洲精品高潮|