亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > PHP > 正文

PHP如何實現爬蟲

2020-03-22 18:37:00
字體:
來源:轉載
供稿:網友
使用PHP的curl擴展抓取頁面數據,PHP的curl擴展是PHP支持的允許你與各種服務器使用各種類型的協議進行連接和通信的庫。

本程序是抓取知乎的用戶數據,要能訪問用戶個人頁面,需要用戶登錄后的才能訪問。當我們在瀏覽器的頁面中點擊一個用戶頭像鏈接進入用戶個人中心頁面的時候,之所以能夠看到用戶的信息,是因為在點擊鏈接的時候,瀏覽器幫你將本地的cookie帶上一齊提交到新的頁面,所以你就能進入到用戶的個人中心頁面。因此實現訪問個人頁面之前需要先獲得用戶的cookie信息,然后在每次curl請求的時候帶上cookie信息。在獲取cookie信息方面,我是用了自己的cookie,在頁面中可以看到自己的cookie信息:

一個個地復制,以"__utma=?;__utmb=?;"這樣的形式組成一個cookie字符串。接下來就可以使用該cookie字符串來發送請求。

初始的示例:

    $url = 'http://www.zhihu.com/people/mora-hu/about';     //此處mora-hu代表用戶ID    $ch = curl_init($url);     //初始化會話    curl_setopt($ch, CURLOPT_HEADER, 0);        curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);      //設置請求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);      //將curl_exec()獲取的信息以文件流的形式返回,而不是直接輸出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);          $result = curl_exec($ch);        return $result;  //抓取的結果

運行上面的代碼可以獲得mora-hu用戶的個人中心頁面。利用該結果再使用html' target='_blank'>正則表達式對頁面進行處理,就能獲取到姓名,性別等所需要抓取的信息。

圖片防盜鏈

在對返回結果進行正則處理后輸出個人信息的時候,發現在頁面中輸出用戶頭像時無法打開。經過查閱資料得知,是因為知乎對圖片做了防盜鏈處理。解決方案就是請求圖片的時候在請求頭里偽造一個referer。

在使用正則表達式獲取到圖片的鏈接之后,再發一次請求,這時候帶上圖片請求的來源,說明該請求來自知乎網站的轉發。具體例子如下:

function getImg($url, $u_id){        if (file_exists('./images/' . $u_id . ".jpg"))        {              return "images/$u_id" . '.jpg';    }    if (empty($url))        {               return '';     }    $context_options = array(          'http' =>          array(            'header' => "Referer:http://www.zhihu.com"//帶上referer參數       )  );          $context = stream_context_create($context_options);      $img = file_get_contents('http:' . $url, FALSE, $context);    file_put_contents('./images/' . $u_id . ".jpg", $img);    return "images/$u_id" . '.jpg';}

爬取更多用戶

不同的用戶的這個url幾乎是一樣的,不同的地方就在于用戶名那里。用正則匹配拿到用戶名列表,一個一個地拼url,然后再逐個發請求(當然,一個一個是比較慢的,下面有解決方案,這個稍后會說到)。進入到新用戶的頁面之后,再重復上面的步驟,就這樣不斷循環,直到達到你所要的數據量。

linux統計文件數量

腳本跑了一段時間后,需要看看究竟獲取了多少圖片,當數據量比較大的時候,打開文件夾查看圖片數量就有點慢。腳本是在linux環境下運行的,因此可以使用linux的命令來統計文件數量:

其中,ls -l是長列表輸出該目錄下的文件信息(這里的文件可以是目錄、鏈接、設備文件等);grep "^-"過濾長列表輸出信息,"^-" 只保留一般文件,如果只保留目錄是"^d";wc -l是統計輸出信息的行數。下面是一個運行示例:

PHP爬蟲 數據抓取 數據分析 爬蟲抓取數據

插入MySQL時重復數據的處理

程序運行了一段時間后,發現有很多用戶的數據是重復的,因此需要在插入重復用戶數據的時候做處理。處理方案如下:

1)插入數據庫之前檢查數據是否已經存在數據庫;

2)添加唯一索引,插入時使用INSERT INTO ... ON DUPliCATE KEY UPDATE...

3)添加唯一索引,插入時使用INSERT INGNO


RE INTO...

4)添加唯一索引,插入時使用REPLACE INTO...

使用curl_multi實現I/O復用抓取頁面

剛開始單進程而且單個curl去抓取數據,速度很慢,掛機爬了一個晚上只能抓到2W的數據,于是便想到能不能在進入新的用戶頁面發curl請求的時候一次性請求多個用戶,后來發現了curl_multi這個好東西。curl_multi這類函數可以實現同時請求多個url,而不是一個個請求,這是一種I/O復用的機制。下面是使用curl_multi爬蟲的示例:

        $mh = curl_multi_init(); //返回一個新cURL批處理句柄        for ($i = 0; $i < $max_size; $i++)        {            $ch = curl_init();  //初始化單個cURL會話            curl_setopt($ch, CURLOPT_HEADER, 0);            curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');            curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);            curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64)            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);             curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);            $requestMap[$i] = $ch;            curl_multi_add_handle($mh, $ch);  //向curl批處理會話中添加單獨的curl句柄        }        $user_arr = array();        do {                        //運行當前 cURL 句柄的子連接            while (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM);                        if ($cme != CURLM_OK) {break;}                        //獲取當前解析的cURL的相關傳輸信息            while ($done = curl_multi_info_read($mh))            {                $info = curl_getinfo($done['handle']);                $tmp_result = curl_multi_getcontent($done['handle']);                $error = curl_error($done['handle']);                $user_arr[] = array_values(getUserInfo($tmp_result));                //保證同時有$max_size個請求在處理                if ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list))                {                    $ch = curl_init();                    curl_setopt($ch, CURLOPT_HEADER, 0);                    curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');                    curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);                    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64)                    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');                    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);                     curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);                    $requestMap[$i] = $ch;                    curl_multi_add_handle($mh, $ch);                    $i++;                }                curl_multi_remove_handle($mh, $done['handle']);            }            if ($active)                curl_multi_select($mh, 10);        } while ($active);        curl_multi_close($mh);        return $user_arr;

HTTP 429 Too Many Requests

使用curl_multi函數可以同時發多個請求,但是在執行過程中使同時發200個請求的時候,發現很多請求無法返回了,即發現了丟包的情況。進一步分析,使用curl_getinfo函數打印每個請求句柄信息,該函數返回一個包含HTTP response信息的關聯數組,其中有一個字段是http_code,表示請求返回的HTTP狀態碼。看到有很多個請求的http_code都是429,這個返回碼的意思是發送太多請求了。我猜是知乎做了防爬蟲的防護,于是我就拿其他的網站來做測試,發現一次性發200個請求時沒問題的,證明了我的猜測,知乎在這方面做了防護,即一次性的請求數量是有限制的。于是我不斷地減少請求數量,發現在5的時候就沒有丟包情況了。說明在這個程序里一次性最多只能發5個請求,雖然不多,但這也是一次小提升了。

使用Redis保存已經訪問過的用戶

抓取用戶的過程中,發現有些用戶是已經訪問過的,而且他的關注者和關注了的用戶都已經獲取過了,雖然在數據庫的層面做了重復數據的處理,但是程序還是會使用curl發請求,這樣重復的發送請求就有很多重復的網絡開銷。還有一個就是待抓取的用戶需要暫時保存在一個地方以便下一次執行,剛開始是放到數組里面,后來發現要在程序里添加多進程,在多進程編程里,子進程會共享程序代碼、函數庫,但是進程使用的變量與其他進程所使用的截然不同。不同進程之間的變量是分離的,不能被其他進程讀取,所以是不能使用數組的。因此就想到了使用Redis緩存來保存已經處理好的用戶以及待抓取的用戶。這樣每次執行完的時候都把用戶push到一個already_request_queue隊列中,把待抓取的用戶(即每個用戶的關注者和關注了的用戶列表)push到request_queue里面,然后每次執行前都從request_queue里pop一個用戶,然后判斷是否在already_request_queue里面,如果在,則進行下一個,否則就繼續執行。

在PHP中使用redis示例:

<?php    $redis = new Redis();    $redis->connect('127.0.0.1', '6379');    $redis->set('tmp', 'value');    if ($redis->exists('tmp'))    {        echo $redis->get('tmp') . "/n";    }

使用PHP的pcntl擴展實現多進程

改用了curl_multi函數實現多線程抓取用戶信息之后,程序運行了一個晚上,最終得到的數據有10W。還不能達到自己的理想目標,于是便繼續優化,后來發現php里面有一個pcntl擴展可以實現多進程編程。下面是多編程編程的示例:

    //PHP多進程demo    //fork10個進程    for ($i = 0; $i < 10; $i++) {        $pid = pcntl_fork();        if ($pid == -1) {            echo "Could not fork!/n";            exit(1);        }        if (!$pid) {            echo "child process $i running/n";            //子進程執行完畢之后就退出,以免繼續fork出新的子進程            exit($i);        }    }        //等待子進程執行完畢,避免出現僵尸進程    while (pcntl_waitpid(0, $status) != -1) {        $status = pcntl_wexitstatus($status);        echo "Child $status completed/n";    }

在linux下查看系統的cpu信息

實現了多進程編程之后,就想著多開幾條進程不斷地抓取用戶的數據,后來開了8調進程跑了一個晚上后發現只能拿到20W的數據,沒有多大的提升。于是查閱資料發現,根據系統優化的CPU性能調優,程序的最大進程數不能隨便給的,要根據CPU的核數和來給,最大進程數最好是cpu核數的2倍。因此需要查看cpu的信息來看看cpu的核數。在linux下查看cpu的信息的命令:

PHP爬蟲 數據抓取 數據分析 爬蟲抓取數據

其中,model name表示cpu類型信息,cpu cores表示cpu核數。這里的核數是1,因為是在虛擬機下運行,分配到的cpu核數比較少,因此只能開2條進程。最終的結果是,用了一個周末就抓取了110萬的用戶數據。

多進程編程中Redis和MySQL連接問題

在多進程條件下,程序運行了一段時間后,發現數據不能插入到數據庫,會報mysql too many connections的錯誤,redis也是如此。

下面這段代碼會執行失?。?/p>

<?php     for ($i = 0; $i < 10; $i++) {          $pid = pcntl_fork();          if ($pid == -1) {               echo "Could not fork!/n";               exit(1);          }          if (!$pid) {               $redis = PRedis::getInstance();               // do something                    exit;          }     }

根本原因是在各個子進程創建時,就已經繼承了父進程一份完全一樣的拷貝。對象可以拷貝,但是已創建的連接不能被拷貝成多個,由此產生的結果,就是各個進程都使用同一個redis連接,各干各的事,最終產生莫名其妙的沖突。

解決方法:

程序不能完全保證在fork進程之前,父進程不會創建redis連接實例。因此,要解決這個問題只能靠子進程本身了。試想一下,如果在子進程中獲取的實例只與當前進程相關,那么這個問題就不存在了。于是解決方案就是稍微改造一下redis類實例化的靜態方式,與當前進程ID綁定起來。

改造后的代碼如下:

<?php     public static function getInstance() {          static $instances = array();          $key = getmypid();//獲取當前進程ID          if ($empty($instances[$key])) {               $inctances[$key] = new self();          }               return $instances[$key];     }

PHP統計腳本執行時間

因為想知道每個進程花費的時間是多少,因此寫個函數統計腳本執行時間:

function microtime_float(){     list($u_sec, $sec) = explode(' ', microtime());      return (floatval($u_sec) + floatval($sec));}$start_time = microtime_float(); //do somethingusleep(100);$end_time = microtime_float();$total_time = $end_time - $start_time;$time_cost = sprintf("%.10f", $total_time);echo "program cost total " . $time_cost . "s/n";

若文中有不正確的地方,望各位指出以便改正。

相關推薦:

nodejs爬蟲superagent和cheerio體驗案例

NodeJS爬蟲詳解

Node.js爬蟲之網頁請求模塊詳解

以上就是PHP如何實現爬蟲的詳細內容,更多請關注 其它相關文章!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
成人免费看黄网站| 欧美激情一级精品国产| 欧美日韩在线视频观看| 久久久免费av| 欧美色xxxx| 久久亚洲精品一区| 3344国产精品免费看| 少妇激情综合网| 国产精品免费视频久久久| 国产在线观看91精品一区| 一区二区三区四区在线观看视频| 久久午夜a级毛片| 国产精品国产三级国产aⅴ9色| 欧美电影《睫毛膏》| 欧美电影免费观看大全| 在线色欧美三级视频| 欧美色欧美亚洲高清在线视频| 在线亚洲午夜片av大片| 日本一欧美一欧美一亚洲视频| 久久综合五月天| 欧美巨乳美女视频| 欧美日韩另类在线| 久久国产精品影片| 亚洲欧美日韩国产中文| 91色在线观看| 精品国产一区二区在线| 日韩欧美中文第一页| 亚洲精品短视频| 91亚洲国产精品| 欧美亚洲视频在线看网址| 欧美床上激情在线观看| 国产成人精品电影久久久| 亚洲精品久久久久久久久久久| 在线看日韩欧美| 精品视频在线播放| 亚洲成人教育av| 国产精品高清在线观看| 黄色一区二区在线| 欧美精品一区三区| 国内精品中文字幕| 国产日韩欧美视频| 1769国内精品视频在线播放| 国产精品美女www爽爽爽视频| 久热精品视频在线观看一区| 成人午夜两性视频| 欧美激情国产日韩精品一区18| 国产精品香蕉在线观看| 国产亚洲人成网站在线观看| 亚洲精品福利免费在线观看| 久久精品久久久久| 91久久久在线| 亚洲欧美中文日韩在线v日本| 亚洲精品久久久一区二区三区| 欧美高跟鞋交xxxxxhd| 中文日韩在线观看| 中文在线不卡视频| 欧美一区二区.| 91在线色戒在线| 亚洲精品网址在线观看| 亚洲a级在线播放观看| 国产成人av在线播放| 亚洲欧美中文日韩在线v日本| 91精品国产91久久久久久久久| 国产欧美日韩中文| 57pao成人永久免费视频| 欧美精品在线免费| 亚洲a∨日韩av高清在线观看| 亚洲国产精品久久久久秋霞不卡| 亚洲人成在线电影| 亚洲欧美日韩精品久久奇米色影视| 亚州精品天堂中文字幕| 亚洲欧美日韩一区二区三区在线| 成人激情视频在线| 亚洲欧美日韩网| 国产美女精品视频免费观看| 57pao成人永久免费视频| 亚洲视频在线观看视频| 久久视频在线免费观看| 色综合久久88| 久久夜色精品国产亚洲aⅴ| 亚洲最大av在线| 久热精品视频在线免费观看| 97久久超碰福利国产精品…| 亚洲色无码播放| 亚洲成人a级网| 91免费在线视频| 国产精品pans私拍| 国产一区二区三区三区在线观看| 亚洲精品女av网站| 精品国产一区二区三区久久久狼| 欧美高清视频在线播放| 午夜精品美女自拍福到在线| 久久久国产影院| 国产精品27p| 久久躁狠狠躁夜夜爽| 亚洲自拍偷拍色片视频| 成人444kkkk在线观看| 中文字幕亚洲无线码a| 在线视频欧美日韩精品| 高清欧美性猛交| 日本成熟性欧美| 久久久伊人欧美| 精品久久久久久久久久久久久| 亚洲色图欧美制服丝袜另类第一页| 亚洲福利在线播放| 欧美午夜精品久久久久久人妖| 亚洲综合日韩中文字幕v在线| 奇米4444一区二区三区| 日韩禁在线播放| 久久91亚洲精品中文字幕奶水| 欧美电影在线免费观看网站| 日韩av片电影专区| 亚洲日本欧美中文幕| 国产精品久久久久久网站| 国产日韩欧美视频| 成人综合国产精品| 九九热在线精品视频| 欧美午夜无遮挡| 亚洲自拍小视频| 在线视频欧美性高潮| 国产色婷婷国产综合在线理论片a| 成人免费激情视频| 国产精品亚洲一区二区三区| 91综合免费在线| 成人黄色av免费在线观看| 2019中文字幕免费视频| 亚洲精品自拍视频| 欧美一区二区三区图| 欧美美女操人视频| 最近2019中文字幕mv免费看| 久久精品国产综合| 日韩三级成人av网| 亚洲韩国日本中文字幕| 亚洲视频一区二区| 亚洲色图15p| 亚洲成人久久电影| 国产综合色香蕉精品| 国产视频亚洲视频| 亚洲毛片一区二区| 亚洲电影免费观看高清完整版| 亚洲最大福利视频网站| 欧美激情一区二区三区高清视频| 日韩av一区二区在线观看| 色偷偷噜噜噜亚洲男人的天堂| 亚洲女人被黑人巨大进入al| 欧美中文字幕在线观看| 18性欧美xxxⅹ性满足| 17婷婷久久www| 欧美视频中文在线看| 亚洲精品成人免费| 91tv亚洲精品香蕉国产一区7ujn| 亚洲视频在线观看网站| 色偷偷偷综合中文字幕;dd| 欧美专区福利在线| 亚洲免费高清视频| 国产精品伦子伦免费视频| 亚洲精品www久久久| 中文字幕亚洲一区二区三区| 91超碰caoporn97人人| 欧美精品在线网站| 国产视频一区在线| www.日韩不卡电影av| 日本伊人精品一区二区三区介绍| 亚洲人成电影网站|