亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 語言 > PHP > 正文

PHP抓取及分析網頁的方法詳解

2024-05-04 23:45:17
字體:
來源:轉載
供稿:網友
這篇文章主要介紹了PHP抓取及分析網頁的方法,結合實例形式詳細分析了php網頁抓取的原理及分析的技巧,需要的朋友可以參考下
 

本文實例講述了PHP抓取及分析網頁的方法。分享給大家供大家參考,具體如下:

抓取和分析一個文件是非常簡單的事。這個教程將通過一個例子帶領你一步一步地去實現它。讓我們開始吧!

首先,我首必須決定我們將抓取的URL地址。可以通過在腳本中設定或通過$QUERY_STRING傳遞。為了簡單起見,讓我們將變量直接設在腳本中。

<?php$url = 'http://www.php.net';?>

第二步,我們抓取指定文件,并且通過file()函數將它存在一個數組里。

<?php$url = 'http://www.php.net';$lines_array = file($url);?>

好了,現在在數組里已經有了文件了。但是,我們想分析的文本可能不全在一行里面。為了解決這個文件,我們可以簡單地將數組$lines_array轉化成一個字符串。我們可以使用implode(x,y)函數來實現它。如果在后面你想用explode(將字符串變量數組),將x設成"|"或"!"或其它類似的分隔符可能會更好。但是出于我們的目的,最好將x設成空格。y是另一個必要的參數,因為它是你想用implode()處理的數組。

<?php$url = 'http://www.php.net';$lines_array = file($url);$lines_string = implode('', $lines_array);?>

現在,抓取工作就做完了,下面該進行分析了。出于這個例子的目的,我們想得到在<head>到</head>之間的所有東西。為了分析出字符串,我們還需要叫做正規表達式的東西。

<?php$url = 'http://www.php.net';$lines_array = file($url);$lines_string = implode('', $lines_array);eregi("<head>(.*)</head>", $lines_string, $head);?>

讓我們看一下代碼。正如你所見,eregi()函數按下面的格式執行:

eregi("<head>(.*)</head>", $lines_string, $head);

"(.*)"表示所有東西,可以解釋為,"分析在<head>和</head>間的所以東西"。$lines_string是我們正在分析的字符串,$head是分析后的結果存放的數組。

最后,我們可以輸數據。因為僅在<head>和</head>間存在一個實例,我們可以安全的假設數組中僅存在著一個元素,而且就是我們想要的。讓我們把它打印出來吧。

<?php$url = 'http://www.php.net';$lines_array = file($url);$lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head);echo $head[0];?>

這就是全部的代碼了。

<?php//獲取所有內容url保存到文件function get_index ( $save_file , $prefix = "index_" ){   $count = 68 ;   $i = 1 ;  if ( file_exists ( $save_file )) @ unlink ( $save_file );   $fp = fopen ( $save_file , "a+" ) or die( "Open " . $save_file . " failed" );  while( $i < $count ){     $url = $prefix . $i . ".htm" ;    echo "Get " . $url . "..." ;     $url_str = get_content_url ( get_url ( $url ));    echo " OK/n" ;     fwrite ( $fp , $url_str );    ++ $i ;  }   fclose ( $fp );}//獲取目標多媒體對象function get_object ( $url_file , $save_file , $split = "|--:**:--|" ){  if (! file_exists ( $url_file )) die( $url_file . " not exist" );   $file_arr = file ( $url_file );  if (! is_array ( $file_arr ) || empty( $file_arr )) die( $url_file . " not content" );   $url_arr = array_unique ( $file_arr );  if ( file_exists ( $save_file )) @ unlink ( $save_file );   $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" );  foreach( $url_arr as $url ){    if (empty( $url )) continue;    echo "Get " . $url . "..." ;     $html_str = get_url ( $url );    echo $html_str ;    echo $url ;    exit;     $obj_str = get_content_object ( $html_str );    echo " OK/n" ;     fwrite ( $fp , $obj_str );  }   fclose ( $fp );}//遍歷目錄獲取文件內容function get_dir ( $save_file , $dir ){   $dp = opendir ( $dir );  if ( file_exists ( $save_file )) @ unlink ( $save_file );   $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" );  while(( $file = readdir ( $dp )) != false ){    if ( $file != "." && $file != ".." ){      echo "Read file " . $file . "..." ;       $file_content = file_get_contents ( $dir . $file );       $obj_str = get_content_object ( $file_content );      echo " OK/n" ;       fwrite ( $fp , $obj_str );    }  }   fclose ( $fp );}//獲取指定url內容function get_url ( $url ){   $reg = '/^http:////[^//].+$/' ;  if (! preg_match ( $reg , $url )) die( $url . " invalid" );   $fp = fopen ( $url , "r" ) or die( "Open url: " . $url . " failed." );  while( $fc = fread ( $fp , 8192 )){     $content .= $fc ;  }   fclose ( $fp );  if (empty( $content )){    die( "Get url: " . $url . " content failed." );  }  return $content ;}//使用socket獲取指定網頁function get_content_by_socket ( $url , $host ){   $fp = fsockopen ( $host , 80 ) or die( "Open " . $url . " failed" );   $header = "GET /" . $url . " HTTP/1.1/r/n" ;   $header .= "Accept: */*/r/n" ;   $header .= "Accept-Language: zh-cn/r/n" ;   $header .= "Accept-Encoding: gzip, deflate/r/n" ;   $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" ;   $header .= "Host: " . $host . "/r/n" ;   $header .= "Connection: Keep-Alive/r/n" ;   //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n";   $header .= "Connection: Close/r/n/r/n" ;   fwrite ( $fp , $header );   while (! feof ( $fp )) {     $contents .= fgets ( $fp , 8192 );   }   fclose ( $fp );   return $contents ;}//獲取指定內容里的urlfunction get_content_url ( $host_url , $file_contents ){   //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word'   //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i';   $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i" ;   $reg = '/^(down.*?/.html)$/i' ;   preg_match_all ( $rex , $file_contents , $r );   $result = "" ; //array();   foreach( $r as $c ){    if ( is_array ( $c )){      foreach( $c as $d ){        if ( preg_match ( $reg , $d )){ $result .= $host_url . $d . "/n" ; }      }    }  }  return $result ;}//獲取指定內容中的多媒體文件function get_content_object ( $str , $split = "|--:**:--|" ){   $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?<//b>)/i" ;   preg_match_all ( $regx , $str , $result );  if ( count ( $result ) == 3 ){     $result [ 2 ] = str_replace ( "多媒體: " , "" , $result [ 2 ]);     $result [ 2 ] = str_replace ( " " , "" , $result [ 2 ]);     $result = $result [ 1 ][ 0 ] . $split . $result [ 2 ][ 0 ] . "/n" ;  }  return $result ;}?>
 


注:相關教程知識閱讀請移步到PHP教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表

圖片精選

亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久91精品国产91久久跳| 国产成人极品视频| 亚洲欧美一区二区三区情侣bbw| 欧美国产日韩中文字幕在线| 亚洲男人的天堂在线| 国产偷亚洲偷欧美偷精品| 日韩精品在线视频| 久久久精品一区二区| 操人视频在线观看欧美| 丝袜美腿精品国产二区| 啊v视频在线一区二区三区| 萌白酱国产一区二区| 日韩精品在线视频观看| 亚洲欧美成人网| 国产精品视频网站| 日韩va亚洲va欧洲va国产| 91av免费观看91av精品在线| 在线视频日韩精品| 精品视频偷偷看在线观看| 欧美成人在线影院| 色偷偷av一区二区三区乱| 亚洲精品免费在线视频| 亚洲国产成人久久| 综合网日日天干夜夜久久| 亚洲va欧美va国产综合剧情| 成人福利网站在线观看11| 亚洲精品中文字幕女同| 91深夜福利视频| 亚洲天堂男人天堂女人天堂| 97在线精品国自产拍中文| 亚洲精品91美女久久久久久久| 欧美亚洲成人精品| 欧美日韩国产一区中文午夜| 欧美性猛交丰臀xxxxx网站| 精品伊人久久97| 亚洲精品国产综合久久| 国产玖玖精品视频| 亚洲专区在线视频| 色与欲影视天天看综合网| 国内精久久久久久久久久人| 亚洲午夜精品久久久久久久久久久久| 久久全球大尺度高清视频| 亚洲精品自在久久| 欧美在线一区二区三区四| 最近中文字幕2019免费| 欧美日韩国产综合新一区| 91日本视频在线| 国产精品色婷婷视频| 精品国产福利在线| 日韩视频欧美视频| 欧美丝袜一区二区三区| 久久精品国产亚洲一区二区| 91高清免费在线观看| 97高清免费视频| 国产欧美婷婷中文| 日韩欧美在线视频观看| 午夜精品一区二区三区在线视| 欧美一区视频在线| 最近2019年中文视频免费在线观看| 欧美一区第一页| 中文字幕久久久av一区| 国产一区二区三区视频在线观看| 精品久久久中文| 国产99在线|中文| 国产精品福利在线观看| 国产成人拍精品视频午夜网站| 亚洲福利在线播放| 九九精品视频在线观看| 在线观看免费高清视频97| 欧美日韩国产二区| 欧美成人精品一区二区| 亚洲欧美制服中文字幕| 精品一区二区亚洲| 国产精品免费久久久久久| 国产成人激情小视频| 欧美高清视频在线| 青草青草久热精品视频在线网站| 欧美日韩一区二区三区| 97精品久久久中文字幕免费| 欧美激情视频免费观看| 亚洲最大福利视频网| 国产精品美女999| 国产精品极品尤物在线观看| 国产精品日韩专区| 国产va免费精品高清在线| 亚洲a成v人在线观看| 国产一区二区在线免费视频| 国产欧美一区二区三区四区| 日韩视频免费在线| 92版电视剧仙鹤神针在线观看| 亚洲mm色国产网站| 欧美视频免费在线观看| 亚洲人a成www在线影院| 最好看的2019年中文视频| 欧美视频在线观看免费网址| 欧美精品久久久久久久久久| 精品无码久久久久久国产| 亚洲国产精品va在线观看黑人| 亚洲男人天堂2019| 国产一区视频在线播放| 欧美极品少妇xxxxⅹ裸体艺术| 精品偷拍一区二区三区在线看| 久色乳综合思思在线视频| 亚洲精品美女免费| 操人视频在线观看欧美| 国内精品小视频| 欧美色xxxx| 久久久久久久久久久91| 久久久这里只有精品视频| 欧美在线视频一区二区| 日韩中文字幕网址| 久久久久久av| 欧美专区福利在线| 亚洲激情国产精品| 91九色国产视频| 欧美日韩福利视频| 亚洲欧美一区二区激情| 久久久国产精彩视频美女艺术照福利| 韩国福利视频一区| 91精品久久久久久综合乱菊| 亚洲精品少妇网址| 国产精品精品久久久| 亚洲美女在线观看| 久久久免费观看| 欧美野外wwwxxx| 日韩精品免费视频| 国产精品久久色| 国产suv精品一区二区| 国产91成人在在线播放| 91精品视频免费| 日本不卡视频在线播放| 国产精品亚洲美女av网站| 欧美精品18videos性欧美| 色哟哟亚洲精品一区二区| 亚洲一区二区三区在线视频| 国产精品一区二区女厕厕| 亚洲国产第一页| 精品夜色国产国偷在线| 色综合影院在线| 4438全国成人免费| 亚洲自拍小视频免费观看| 最近中文字幕mv在线一区二区三区四区| 国模视频一区二区三区| 91av在线不卡| 欧美性生活大片免费观看网址| 精品高清一区二区三区| 国产精品偷伦视频免费观看国产| 2018中文字幕一区二区三区| 欧美日韩国产色视频| 色悠悠久久88| 欧洲成人在线视频| 欧美日韩国产丝袜另类| 国产高清在线不卡| 不卡毛片在线看| 国产精品视频一区二区高潮| 国产精品扒开腿做爽爽爽的视频| 最近2019中文字幕一页二页| 国产精品嫩草影院久久久| 北条麻妃99精品青青久久| 在线视频精品一| 美女性感视频久久久| 高清欧美电影在线| 亚洲天堂2020| 伊人精品在线观看|