亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > C# > 正文

C#實現抓取和分析網頁類實例

2020-01-24 01:48:59
字體:
來源:轉載
供稿:網友

本文實例講述了C#實現抓取和分析網頁類。分享給大家供大家參考。具體分析如下:

這里介紹了抓取和分析網頁的類。

其主要功能有:

1、提取網頁的純文本,去所有html標簽和javascript代碼
2、提取網頁的鏈接,包括href和frame及iframe
3、提取網頁的title等(其它的標簽可依此類推,正則是一樣的)
4、可以實現簡單的表單提交及cookie保存

/** Author:Sunjoy at CCNU* 如果您改進了這個類請發一份代碼給我(ccnusjy 在gmail.com)*/using System;using System.Data;using System.Configuration;using System.Net;using System.IO;using System.Text;using System.Collections.Generic;using System.Text.RegularExpressions;using System.Threading;using System.Web;/// <summary>/// 網頁類/// </summary>public class WebPage{ #region 私有成員 private Uri m_uri; //網址 private List<Link> m_links; //此網頁上的鏈接 private string m_title;  //此網頁的標題 private string m_html;   //此網頁的HTML代碼 private string m_outstr;  //此網頁可輸出的純文本 private bool m_good;   //此網頁是否可用 private int m_pagesize;  //此網頁的大小 private static Dictionary<string, CookieContainer> webcookies = new Dictionary<string, CookieContainer>();//存放所有網頁的Cookie private string m_post; //此網頁的登陸頁需要的POST數據 private string m_loginurl; //此網頁的登陸頁 #endregion #region 私有方法 /// <summary> /// 這私有方法從網頁的HTML代碼中分析出鏈接信息 /// </summary> /// <returns>List<Link></returns> private List<Link> getLinks() {  if (m_links.Count == 0)  {   Regex[] regex = new Regex[2];   regex[0] = new Regex("(?m)<a[^><]+href=(/"|')?(?<url>([^>/"'//s)])+)(/"|')?[^>]*>(?<text>(//w|//W)*?)</", RegexOptions.Multiline | RegexOptions.IgnoreCase);   regex[1] = new Regex("<[i]*frame[^><]+src=(/"|')?(?<url>([^>/"'//s)])+)(/"|')?[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase);   for (int i = 0; i < 2; i++)   {    Match match = regex[i].Match(m_html);    while (match.Success)    {     try     {      string url = new Uri(m_uri, match.Groups["url"].Value).AbsoluteUri;      string text = "";      if (i == 0) text = new Regex("(<[^>]+>)|(//s)|( )|&|/"", RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(match.Groups["text"].Value, "");      Link link = new Link(url, text);      m_links.Add(link);     }     catch(Exception ex){Console.WriteLine(ex.Message); };     match = match.NextMatch();    }   }  }  return m_links; } /// <summary> /// 此私有方法從一段HTML文本中提取出一定字數的純文本 /// </summary> /// <param name="instr">HTML代碼</param> /// <param name="firstN">提取從頭數多少個字</param> /// <param name="withLink">是否要鏈接里面的字</param> /// <returns>純文本</returns> private string getFirstNchar(string instr, int firstN, bool withLink) {  if (m_outstr == "")  {   m_outstr = instr.Clone() as string;   m_outstr = new Regex(@"(?m)<script[^>]*>(/w|/W)*?</script[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase ).Replace(m_outstr, "");   m_outstr = new Regex(@"(?m)<style[^>]*>(/w|/W)*?</style[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase ).Replace(m_outstr, "");   m_outstr = new Regex(@"(?m)<select[^>]*>(/w|/W)*?</select[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase ).Replace(m_outstr, "");   if (!withLink) m_outstr = new Regex(@"(?m)<a[^>]*>(/w|/W)*?</a[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(m_outstr, "");   Regex objReg = new System.Text.RegularExpressions.Regex("(<[^>]+?>)| ", RegexOptions.Multiline | RegexOptions.IgnoreCase);   m_outstr = objReg.Replace(m_outstr, "");   Regex objReg2 = new System.Text.RegularExpressions.Regex("(//s)+", RegexOptions.Multiline | RegexOptions.IgnoreCase);   m_outstr = objReg2.Replace(m_outstr, " ");  }  return m_outstr.Length > firstN ? m_outstr.Substring(0, firstN) : m_outstr; } /// <summary> /// 此私有方法返回一個IP地址對應的無符號整數 /// </summary> /// <param name="x">IP地址</param> /// <returns></returns> private uint getuintFromIP(IPAddress x) {  Byte[] bt = x.GetAddressBytes();  uint i = (uint)(bt[0] * 256 * 256 * 256);  i += (uint)(bt[1] * 256 * 256);  i += (uint)(bt[2] * 256);  i += (uint)(bt[3]);  return i; } #endregion #region 公有文法 /// <summary> /// 此公有方法提取網頁中一定字數的純文本,包括鏈接文字 /// </summary> /// <param name="firstN">字數</param> /// <returns></returns> public string getContext(int firstN) {  return getFirstNchar(m_html, firstN, true); } /// <summary> /// 此公有方法提取網頁中一定字數的純文本,不包括鏈接文字 /// </summary> /// <param name="firstN"></param> /// <returns></returns> public string getContextWithOutLink(int firstN) {  return getFirstNchar(m_html, firstN, false); } /// <summary> /// 此公有方法從本網頁的鏈接中提取一定數量的鏈接,該鏈接的URL滿足某正則式 /// </summary> /// <param name="pattern">正則式</param> /// <param name="count">返回的鏈接的個數</param> /// <returns>List<Link></returns> public List<Link> getSpecialLinksByUrl(string pattern,int count) {  if(m_links.Count==0)getLinks();  List<Link> SpecialLinks = new List<Link>();  List<Link>.Enumerator i;  i = m_links.GetEnumerator();  int cnt = 0;  while (i.MoveNext() && cnt<count)  {   if (new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase ).Match(i.Current.url).Success)   {    SpecialLinks.Add(i.Current);    cnt++;   }  }   return SpecialLinks; } /// <summary> /// 此公有方法從本網頁的鏈接中提取一定數量的鏈接,該鏈接的文字滿足某正則式 /// </summary> /// <param name="pattern">正則式</param> /// <param name="count">返回的鏈接的個數</param> /// <returns>List<Link></returns> public List<Link> getSpecialLinksByText(string pattern,int count) {  if (m_links.Count == 0) getLinks();  List<Link> SpecialLinks = new List<Link>();  List<Link>.Enumerator i;  i = m_links.GetEnumerator();  int cnt = 0;  while (i.MoveNext() && cnt < count)  {   if (new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase ).Match(i.Current.text).Success)   {    SpecialLinks.Add(i.Current);    cnt++;   }  }  return SpecialLinks; } /// <summary> /// 此公有方法獲得所有鏈接中在一定IP范圍的鏈接 /// </summary> /// <param name="_ip_start">起始IP</param> /// <param name="_ip_end">終止IP</param> /// <returns></returns> public List<Link> getSpecialLinksByIP(string _ip_start, string _ip_end) {  IPAddress ip_start = IPAddress.Parse(_ip_start);  IPAddress ip_end = IPAddress.Parse(_ip_end);  if (m_links.Count == 0) getLinks();  List<Link> SpecialLinks = new List<Link>();  List<Link>.Enumerator i;  i = m_links.GetEnumerator();  while (i.MoveNext())  {   IPAddress ip;   try   {    ip = Dns.GetHostEntry(new Uri(i.Current.url).Host).AddressList[0];   }   catch { continue; }   if(getuintFromIP(ip)>=getuintFromIP(ip_start) && getuintFromIP(ip)<=getuintFromIP(ip_end))   {    SpecialLinks.Add(i.Current);   }  }  return SpecialLinks; } /// <summary> /// 這公有方法提取本網頁的純文本中滿足某正則式的文字 /// </summary> /// <param name="pattern">正則式</param> /// <returns>返回文字</returns> public string getSpecialWords(string pattern) {  if (m_outstr == "") getContext(Int16.MaxValue);  Regex regex = new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase );  Match mc=regex.Match(m_outstr);  if (mc.Success)   return mc.Groups[1].Value;  return string.Empty; } #endregion #region 構造函數 private void Init(string _url) {  try  {   m_uri = new Uri(_url);   m_links = new List<Link>();   m_html = "";   m_outstr = "";   m_title = "";   m_good = true;   if (_url.EndsWith(".rar") || _url.EndsWith(".dat") || _url.EndsWith(".msi"))   {    m_good = false;    return;   }   HttpWebRequest rqst = (HttpWebRequest)WebRequest.Create(m_uri);   rqst.AllowAutoRedirect = true;   rqst.MaximumAutomaticRedirections = 3;   rqst.UserAgent = "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)";   rqst.KeepAlive = true;   rqst.Timeout = 30000;   lock (WebPage.webcookies)   {    if (WebPage.webcookies.ContainsKey(m_uri.Host))     rqst.CookieContainer = WebPage.webcookies[m_uri.Host];    else    {     CookieContainer cc = new CookieContainer();     WebPage.webcookies[m_uri.Host] = cc;     rqst.CookieContainer = cc;    }   }   HttpWebResponse rsps = (HttpWebResponse)rqst.GetResponse();   Stream sm = rsps.GetResponseStream();   if (!rsps.ContentType.ToLower().StartsWith("text/") || rsps.ContentLength > 1 << 22)   {    rsps.Close();    m_good = false;    return;   }   Encoding cding = System.Text.Encoding.Default;   string contenttype=rsps.ContentType.ToLower();   int ix = contenttype.IndexOf("charset=");   if (ix != -1)   {    try    {     cding = System.Text.Encoding.GetEncoding(rsps.ContentType.Substring(ix + "charset".Length + 1));    }    catch    {     cding = Encoding.Default;    }    m_html = new StreamReader(sm, cding).ReadToEnd();   }   else   {    m_html = new StreamReader(sm, cding).ReadToEnd();    Regex regex = new Regex("charset=(?<cding>[^=]+)?/"",RegexOptions.IgnoreCase);    string strcding = regex.Match(m_html).Groups["cding"].Value;    try    {     cding = Encoding.GetEncoding(strcding);    }    catch{     cding = Encoding.Default;    }    byte[] bytes=Encoding.Default.GetBytes(m_html.ToCharArray());    m_html = cding.GetString(bytes);    if (m_html.Split('?').Length > 100)    {     m_html=Encoding.Default.GetString(bytes);    }   }      m_pagesize = m_html.Length;   m_uri = rsps.ResponseUri;   rsps.Close();  }  catch (Exception ex)  {   Console.WriteLine(ex.Message+m_uri.ToString());   m_good = false;  } } public WebPage(string _url) {  string uurl = "";  try  {   uurl = Uri.UnescapeDataString(_url);   _url = uurl;  }  catch { };  Regex re = new Regex("(?<h>[^/x00-/xff]+)");  Match mc = re.Match(_url);  if (mc.Success)  {   string han = mc.Groups["h"].Value;   _url = _url.Replace(han, System.Web.HttpUtility.UrlEncode(han, Encoding.GetEncoding("GB2312")));  }  Init(_url); } public WebPage(string _url, string _loginurl, string _post) {  string uurl = "";  try  {   uurl = Uri.UnescapeDataString(_url);   _url = uurl;  }  catch { };  Regex re = new Regex("(?<h>[^/x00-/xff]+)");  Match mc = re.Match(_url);  if (mc.Success)  {   string han = mc.Groups["h"].Value;   _url = _url.Replace(han, System.Web.HttpUtility.UrlEncode(han, Encoding.GetEncoding("GB2312")));  }  if (_loginurl.Trim() == "" || _post.Trim() == "" || WebPage.webcookies.ContainsKey(new Uri(_url).Host))  {   Init(_url);  }  else  {   #region 登陸   string indata = _post;   m_post = _post;   m_loginurl = _loginurl;   byte[] bytes = Encoding.Default.GetBytes(_post);   CookieContainer myCookieContainer = new CookieContainer();   try   {    //新建一個CookieContainer來存放Cookie集合     HttpWebRequest myHttpWebRequest = (HttpWebRequest)WebRequest.Create(_loginurl);    //新建一個HttpWebRequest     myHttpWebRequest.ContentType = "application/x-www-form-urlencoded";    myHttpWebRequest.AllowAutoRedirect = false;    myHttpWebRequest.UserAgent = "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)";    myHttpWebRequest.Timeout = 60000;    myHttpWebRequest.KeepAlive = true;    myHttpWebRequest.ContentLength = bytes.Length;    myHttpWebRequest.Method = "POST";    myHttpWebRequest.CookieContainer = myCookieContainer;    //設置HttpWebRequest的CookieContainer為剛才建立的那個myCookieContainer     Stream myRequestStream = myHttpWebRequest.GetRequestStream();    myRequestStream.Write(bytes, 0, bytes.Length);    myRequestStream.Close();    HttpWebResponse myHttpWebResponse = (HttpWebResponse)myHttpWebRequest.GetResponse();    foreach (Cookie ck in myHttpWebResponse.Cookies)    {     myCookieContainer.Add(ck);    }    myHttpWebResponse.Close();   }   catch   {    Init(_url);    return;   }   #endregion   #region 登陸后再訪問頁面   try   {    m_uri = new Uri(_url);    m_links = new List<Link>();    m_html = "";    m_outstr = "";    m_title = "";    m_good = true;    if (_url.EndsWith(".rar") || _url.EndsWith(".dat") || _url.EndsWith(".msi"))    {     m_good = false;     return;    }    HttpWebRequest rqst = (HttpWebRequest)WebRequest.Create(m_uri);    rqst.AllowAutoRedirect = true;    rqst.MaximumAutomaticRedirections = 3;    rqst.UserAgent = "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)";    rqst.KeepAlive = true;    rqst.Timeout = 30000;    rqst.CookieContainer = myCookieContainer;    lock (WebPage.webcookies)    {     WebPage.webcookies[m_uri.Host] = myCookieContainer;    }    HttpWebResponse rsps = (HttpWebResponse)rqst.GetResponse();    Stream sm = rsps.GetResponseStream();    if (!rsps.ContentType.ToLower().StartsWith("text/") || rsps.ContentLength > 1 << 22)    {     rsps.Close();     m_good = false;     return;    }    Encoding cding = System.Text.Encoding.Default;    int ix = rsps.ContentType.ToLower().IndexOf("charset=");    if (ix != -1)    {     try     {      cding = System.Text.Encoding.GetEncoding(rsps.ContentType.Substring(ix + "charset".Length + 1));     }     catch     {      cding = Encoding.Default;     }    }    m_html = new StreamReader(sm, cding).ReadToEnd();    m_pagesize = m_html.Length;    m_uri = rsps.ResponseUri;    rsps.Close();   }   catch (Exception ex)   {    Console.WriteLine(ex.Message+m_uri.ToString());    m_good = false;   }   #endregion  } } #endregion #region 屬性 /// <summary> /// 通過此屬性可獲得本網頁的網址,只讀 /// </summary> public string URL {  get  {   return m_uri.AbsoluteUri;  } } /// <summary> /// 通過此屬性可獲得本網頁的標題,只讀 /// </summary> public string Title {  get  {   if (m_title == "")   {    Regex reg = new Regex(@"(?m)<title[^>]*>(?<title>(?:/w|/W)*?)</title[^>]*>", RegexOptions.Multiline | RegexOptions.IgnoreCase );    Match mc = reg.Match(m_html);    if (mc.Success)     m_title= mc.Groups["title"].Value.Trim();   }   return m_title;  } } /// <summary> /// 此屬性獲得本網頁的所有鏈接信息,只讀 /// </summary> public List<Link> Links {  get  {   if (m_links.Count == 0) getLinks();   return m_links;  } } /// <summary> /// 此屬性返回本網頁的全部純文本信息,只讀 /// </summary> public string Context {  get  {   if (m_outstr == "") getContext(Int16.MaxValue);   return m_outstr;  } } /// <summary> /// 此屬性獲得本網頁的大小 /// </summary> public int PageSize {  get  {   return m_pagesize;  } } /// <summary> /// 此屬性獲得本網頁的所有站內鏈接 /// </summary> public List<Link> InsiteLinks {  get  {   return getSpecialLinksByUrl("^http://"+m_uri.Host,Int16.MaxValue);  } } /// <summary> /// 此屬性表示本網頁是否可用 /// </summary> public bool IsGood {  get  {   return m_good;  } } /// <summary> /// 此屬性表示網頁的所在的網站 /// </summary> public string Host {  get  {   return m_uri.Host;  } } /// <summary> /// 此網頁的登陸頁所需的POST數據 /// </summary> public string PostStr {  get  {   return m_post;  } } /// <summary> /// 此網頁的登陸頁 /// </summary> public string LoginURL {  get  {   return m_loginurl;  } } #endregion}/// <summary>/// 鏈接類/// </summary>public class Link{ public string url; //鏈接網址 public string text; //鏈接文字 public Link(string _url, string _text) {  url = _url;  text = _text; }}

希望本文所述對大家的C#程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产精品一区二区电影| 久久久久国产精品免费网站| 欧美成人黄色小视频| 欧美另类极品videosbestfree| 精品国产一区二区三区久久久狼| 亚洲free性xxxx护士白浆| 国产99久久精品一区二区 夜夜躁日日躁| 精品人伦一区二区三区蜜桃网站| 国产精品久久婷婷六月丁香| 久久久精品视频成人| 欧美巨大黑人极品精男| 久久国产加勒比精品无码| 亚洲视频精品在线| 久久久久久高潮国产精品视| 一区二区亚洲精品国产| 日韩av在线播放资源| 日日摸夜夜添一区| 国产99久久精品一区二区| 久久视频免费在线播放| 一区二区三区回区在观看免费视频| 亚洲人成网站色ww在线| 欧洲精品毛片网站| 欧美激情亚洲激情| 91精品国产91久久久久久最新| 国产精品第3页| 亚洲色图17p| 久久影视电视剧凤归四时歌| 中文字幕av日韩| 欧美日韩福利视频| 久久久久中文字幕2018| 国产成人精品久久亚洲高清不卡| 欧美精品久久久久a| 亚洲成人aaa| 亚洲精品电影在线观看| 日韩在线不卡视频| 欧美一级大片视频| 91午夜理伦私人影院| 欧美性色视频在线| 精品少妇v888av| 欧美成年人视频网站欧美| 欧美在线视频观看| 这里只有精品丝袜| 亚洲精品国产拍免费91在线| 日日摸夜夜添一区| 亚洲成人在线网| 成人伊人精品色xxxx视频| 国产精品网站入口| 久久久久久国产精品| 国产欧美一区二区三区久久人妖| 日本老师69xxx| 韩国v欧美v日本v亚洲| 日韩美女福利视频| 中文字幕亚洲精品| 中文字幕亚洲专区| 日韩在线播放视频| 亚洲一区二区在线| 欧美乱大交做爰xxxⅹ性3| 92看片淫黄大片欧美看国产片| 国产精品视频xxxx| 91精品国产高清自在线看超| 高清在线视频日韩欧美| 欧美精品免费播放| 亚洲精品自拍偷拍| 久久久免费精品视频| 国产欧美久久一区二区| 中文字幕精品一区二区精品| 中文字幕精品一区久久久久| 国产亚洲一区二区在线| 中文字幕亚洲欧美| 久久久久免费视频| 国产精品福利片| 欧美黑人极品猛少妇色xxxxx| 一区二区三区视频免费| 精品久久久久久久久久ntr影视| 欧美专区国产专区| 国产成人在线亚洲欧美| 国产一区二区三区丝袜| 亚洲毛片在线免费观看| 亚洲最新在线视频| 亚洲国产精品成人精品| 热久久美女精品天天吊色| 国产日韩欧美视频在线| 久久91精品国产| 欧美亚洲成人网| 久久久免费精品视频| 亚洲国产精品99久久| 日本三级韩国三级久久| 欧美日韩国产精品一区二区三区四区| 91亚洲精品一区二区| 欧美日韩福利视频| 色综合伊人色综合网站| 日韩av有码在线| 精品电影在线观看| 精品成人久久av| 国产日韩欧美另类| 国产亚洲日本欧美韩国| 91av在线免费观看| 国产精品一区二区久久久| 日韩欧美亚洲国产一区| 欧美在线激情网| 欧美亚洲国产视频| 日韩美女在线观看| 韩国精品美女www爽爽爽视频| 国产精品久久久久一区二区| 亚洲视频在线免费观看| 欧美精品激情blacked18| 亚洲免费成人av电影| 久久中文久久字幕| 亚洲四色影视在线观看| 欧美中文在线免费| 欧美色视频日本高清在线观看| 亚洲视频日韩精品| 亚洲成av人乱码色午夜| 亚洲最大的免费| 国产午夜精品视频免费不卡69堂| 久久亚洲综合国产精品99麻豆精品福利| 国产精品久久综合av爱欲tv| 久久av中文字幕| 日韩电影免费观看中文字幕| 国产不卡一区二区在线播放| 色悠久久久久综合先锋影音下载| 最近2019中文字幕一页二页| 国产亚洲精品美女久久久| 色综合久久精品亚洲国产| 亚洲免费视频观看| 亚洲电影免费观看高清完整版| 亚洲综合精品一区二区| 国产欧美一区二区三区久久人妖| 亚洲最大av网站| 成人黄色午夜影院| www.久久久久| 人人爽久久涩噜噜噜网站| 91久久久久久| 成人信息集中地欧美| 国产精品久久久久7777婷婷| 成人午夜在线视频一区| 4p变态网欧美系列| 久久精品成人欧美大片古装| 91在线看www| 92国产精品久久久久首页| 国产精品嫩草视频| 成人免费福利在线| 亚洲男人的天堂在线播放| 精品久久在线播放| 久久99久久亚洲国产| 在线视频欧美日韩精品| 欧美日韩不卡合集视频| 亚洲精品黄网在线观看| 久久国产精品影视| 国产美女精彩久久| 国产一区二区日韩精品欧美精品| 538国产精品一区二区免费视频| 欧美精品久久久久| 在线视频欧美日韩| 色综合久久精品亚洲国产| 疯狂蹂躏欧美一区二区精品| 色综合久综合久久综合久鬼88| 亚洲大胆人体视频| 欧美激情综合色综合啪啪五月| 成人黄色片在线| 国产www精品| 日本高清不卡的在线| 亚洲欧洲在线视频| 亚洲欧美国产精品|