亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > PHP > 正文

一個PHP實現的輕量級簡單爬蟲

2020-03-22 18:27:19
字體:
來源:轉載
供稿:網友
最近需要收集資料,在瀏覽器上用另存為的方式實在是很麻煩,而且不利于存儲和檢索。所以自己寫了一個小爬蟲,在網上爬東西,迄今為止,已經爬了近百 萬張網頁。現在正在想辦法著手處理這些數據。爬蟲的結構:
爬蟲的原理其實很簡單,就是分析下載的頁面,找出其中的連接,然后再下載這些鏈接,再分析再下載,周而復始。在數據存儲方面,數據庫是首選,便于檢索,而 開發語言,只要支持html' target='_blank'>正則表達式就可以了,數據庫我選擇了mysql,所以,開發腳本我選擇了php。它支持perl兼容正則表達式,連接mysql很方 便,支持http下載,而且windows系統和linux系統都可以部署。正則表達式:
正則表達式是處理文字的基本工具,要取出html中的鏈接和圖片,使用的正則表達式如下。http://xiazai.phpstudy.net/201506/other/net_spider.rar
使用的時候,先在mysql中創建net_spider數據庫,然后用db.sql創建相關表。再在config.php中設置mysql 的用戶名口令。
最后
http://news.sina.com.cn
現在感覺下來,其實做個爬蟲沒那么復雜,難的是數據的存儲和檢索。我現在的數據庫,最大一個數據表已經15G,正在想辦處理這些數據,mysql進 行查詢已經感覺有點力不從心了。這點上還真佩服google#加載頁面function curl_get($url){ $ch=curl_init(); curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch,CURLOPT_HEADER,1); $result=curl_exec($ch); $code=curl_getinfo($ch,CURLINFO_HTTP_CODE); if($code!='404' && $result){ return $result; curl_close($ch);#獲取頁面url鏈接function get_page_urls($spider_page_result,$base_url){ $get_url_result=preg_match_all("/ [a|A].* href=[/'/"]{0,1}([^ /'/"/]*).* /",$spider_page_result,$out); if($get_url_result){ return $out[1]; }else{ return;#相對路徑轉絕對路徑function xdtojd($base_url,$url_list){ if(is_array($url_list)){ foreach($url_list as $url_item){ if(preg_match("/^(http:////|http:////|javascript:)/",$url_item)){ $result_url_list[]=$url_item; }else { if(preg_match("/^///",$url_item)){ $real_url = $base_url.$url_item; }else{ $real_url = $base_url."/".$url_item; #$real_url = 'http://www.sumpay.cn/'.$url_item; $result_url_list[] = $real_url; return $result_url_list; }else{ return;#刪除其他站點urlfunction other_site_url_del($jd_url_list,$url_base){ if(is_array($jd_url_list)){ foreach($jd_url_list as $all_url){ echo $all_url; if(strpos($all_url,$url_base)===0){ $all_url_list[]=$all_url; return $all_url_list; }else{ return;#刪除相同URLfunction url_same_del($array_url){ if(is_array($array_url)){ $insert_url=array(); $pizza=file_get_contents("/tmp/url.txt"); if($pizza){ $pizza=explode("/r/n",$pizza); foreach($array_url as $array_value_url){ if(!in_array($array_value_url,$pizza)){ $insert_url[]=$array_value_url; if($insert_url){ foreach($insert_url as $key = $insert_url_value){ #這里只做了參數相同去重處理 $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value); foreach($pizza as $pizza_value){ $update_pizza_value=preg_replace('/=[^&]*/','=leesec',$pizza_value); if($update_insert_url==$update_pizza_value){ unset($insert_url[$key]); continue; }else{ $insert_url=array(); $insert_new_url=array(); $insert_url=$array_url; foreach($insert_url as $insert_url_value){ $update_insert_url=preg_replace('/=[^&]*/','=leesec',$insert_url_value); $insert_new_url[]=$update_insert_url; $insert_new_url=array_unique($insert_new_url); foreach($insert_new_url as $key = $insert_new_url_val){ $insert_url_bf[]=$insert_url[$key]; $insert_url=$insert_url_bf; return $insert_url; }else{ return; $current_url=$argv[1];$fp_puts = fopen("/tmp/url.txt","ab");//記錄url列表 $fp_gets = fopen("/tmp/url.txt","r");//保存url列表 $url_base_url=parse_url($current_url);if($url_base_url['scheme']==""){ $url_base="http://".$url_base_url['host'];}else{ $url_base=$url_base_url['scheme']."://".$url_base_url['host']; $spider_page_result=curl_get($current_url); #var_dump($spider_page_result); $url_list=get_page_urls($spider_page_result,$url_base); #var_dump($url_list); if(!$url_list){ continue; $jd_url_list=xdtojd($url_base,$url_list); #var_dump($jd_url_list); $result_url_arr=other_site_url_del($jd_url_list,$url_base); var_dump($result_url_arr); $result_url_arr=url_same_del($result_url_arr); #var_dump($result_url_arr); if(is_array($result_url_arr)){ $result_url_arr=array_unique($result_url_arr); foreach($result_url_arr as $new_url) { fputs($fp_puts,$new_url."/r/n"); }while ($current_url = fgets($fp_gets,1024));//不斷獲得url preg_match_all("/ a[^ ]+href=[/"']([^/"']+)[/"'][^ ]+ /",$spider_page_result,$out);# echo a href#var_dump($out[1]);PHP教程

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久99精品视频一区97| 欧美成人在线网站| 国产视频久久久| 亚洲片在线观看| 欧美激情国产日韩精品一区18| 97av视频在线| 亚洲精品国产精品自产a区红杏吧| 成人免费在线视频网站| 欧美情侣性视频| 91精品久久久久久久久不口人| 69**夜色精品国产69乱| 97欧美精品一区二区三区| 欧美日韩一二三四五区| 日韩一区二区在线视频| 亚洲国产精品va在线看黑人动漫| 欧美日韩亚洲精品内裤| 亚洲性生活视频在线观看| 国产亚洲人成网站在线观看| 国产欧美精品在线播放| 国内精品久久久久久影视8| 91系列在线观看| 日韩成人av网| 久久综合色88| 国产亚洲a∨片在线观看| 两个人的视频www国产精品| 97人人爽人人喊人人模波多| 成人国产精品免费视频| 欧美激情中文字幕在线| 在线观看欧美成人| 精品香蕉一区二区三区| 国产精品欧美亚洲777777| 欧美日韩国产成人| 久热精品在线视频| 久久久久久久电影一区| 日本久久久a级免费| 日韩乱码在线视频| 亚洲精品一区中文字幕乱码| 亚洲精品在线91| 国产亚洲美女精品久久久| 国产在线拍偷自揄拍精品| 国产一区二区三区中文| 欧美精品午夜视频| 91精品国产综合久久久久久蜜臀| 91最新国产视频| 国产精品偷伦视频免费观看国产| 日韩电影第一页| 欧美亚洲国产日本| 国产成人一区二区三区电影| 亚洲精品久久久久久久久| 日韩在线激情视频| 亚洲男人天堂网| 欧美精品日韩三级| 91精品国产乱码久久久久久蜜臀| 亚洲男人的天堂网站| 国产69精品久久久久9| 亚洲www视频| 中文字幕亚洲一区二区三区五十路| 国语自产精品视频在线看一大j8| 九九精品视频在线| 欧美在线视频导航| 欧洲永久精品大片ww免费漫画| 欧美在线中文字幕| 欧美在线欧美在线| 久久久精品视频成人| 狠狠爱在线视频一区| 亚洲天堂av在线免费| 久久久久久亚洲精品不卡| 亚洲激情在线观看视频免费| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲激情在线观看视频免费| 国产精品草莓在线免费观看| 国产精品视频免费在线观看| 国产成人中文字幕| 97在线视频国产| 日韩欧美亚洲综合| 亚洲一品av免费观看| 亚洲最大成人免费视频| 亚洲自拍偷拍网址| 国产成人综合精品在线| 日韩免费观看视频| 国产精品香蕉国产| 日日骚av一区| 国产精品久久久久久久久男| 亚洲最新av在线| 国产综合在线视频| 国产欧美精品一区二区三区介绍| 亚洲第一在线视频| 中文字幕免费国产精品| 日韩av免费网站| 在线电影欧美日韩一区二区私密| 亚洲级视频在线观看免费1级| 欧美激情国产日韩精品一区18| 国产精品亚发布| 视频在线观看一区二区| 国产精品电影久久久久电影网| 97精品国产97久久久久久春色| 亚洲精品国产福利| 国产日韩在线亚洲字幕中文| 欧美日韩色婷婷| 精品亚洲男同gayvideo网站| 欧美性生交xxxxx久久久| 久久久av亚洲男天堂| 日本中文字幕久久看| 最新69国产成人精品视频免费| 国产98色在线| 大胆欧美人体视频| 亚洲a区在线视频| 九九热99久久久国产盗摄| 国产精品久久久999| 91精品久久久久久综合乱菊| 亚洲欧美日韩爽爽影院| 日日狠狠久久偷偷四色综合免费| 51色欧美片视频在线观看| 日韩欧美视频一区二区三区| 欧美综合一区第一页| 国产精品亚洲网站| 日韩视频中文字幕| 国产啪精品视频网站| 国内精品小视频在线观看| 疯狂做受xxxx高潮欧美日本| 亚洲国产精品国自产拍av秋霞| 国产乱人伦真实精品视频| 精品自在线视频| 亚洲国产高清自拍| 久久天天躁狠狠躁夜夜爽蜜月| 九九久久久久久久久激情| 欧美黑人一区二区三区| 日韩女优在线播放| 国产精品海角社区在线观看| 久久久久久久香蕉网| 久久久久久久久电影| 国产精品主播视频| 国产精品v日韩精品| 97免费视频在线播放| 九九精品在线视频| 亚洲精品国产欧美| 91精品久久久久久久久不口人| 国产一级揄自揄精品视频| 欧美国产日韩xxxxx| 国产精品久久久久久亚洲调教| 欧美一级黄色网| 88国产精品欧美一区二区三区| 日韩美女在线播放| 国产在线98福利播放视频| 98精品在线视频| 国产亚洲欧美日韩美女| 欧美日韩人人澡狠狠躁视频| 精品国产自在精品国产浪潮| 欧美刺激性大交免费视频| 美女av一区二区| 国产精品揄拍一区二区| 亚洲香蕉成视频在线观看| 国产精自产拍久久久久久| 国产a级全部精品| 国产成人自拍视频在线观看| 亚洲男人天堂2019| 久久精品电影网站| 欧美精品第一页在线播放| 色噜噜狠狠色综合网图区| 国内精品免费午夜毛片| 亚洲乱码一区av黑人高潮| 欧美激情欧美激情在线五月| 日本成人免费在线| 色午夜这里只有精品|