要統計蜘蛛爬行痕跡我們在php中使用HTTP_USER_AGENT獲取用戶行為信息,然后再判斷是不是包括搜索引擎蜘蛛的相關參數了,如果有就是搜索引擎蜘蛛了.
WordPress博客記錄搜索引擎蜘蛛爬行痕跡插件:
1、搜索引擎蜘蛛爬行記錄器Spider Tracker插件可以記錄百度、谷歌、雅虎、必應、搜狗、搜搜6種搜索引擎的蜘蛛爬行痕跡,并生成統計圖表,可以清晰的看到,近6日的各種搜索引擎的蜘蛛數量,以及當日的哪些時間,蜘蛛來過站里,又抓取了哪些網址。
2、wp-log-robots 插件大小僅3KB,wp-log-robots是一個記錄搜索引擎蜘蛛爬蟲活動記錄的WordPress插件,插件主文件只有一個 wp-log-robots.php,關鍵它的統計數據不用添加到數據庫中,而是以文本文件記錄下來的,比如你的博客地址是:http://www.49028c.com,那么機器人日志文件的存放位置是:/robots_log.txt 。我們只要把這個地址添加到搜藏夾,就可以方便的查看各個搜索引擎的抓取情況。
在博客后臺插件-安裝插件-搜索“wp-log-robots”-點擊現在安裝,然后再插件頁面啟用該插件,不需要設置,就會開始記錄搜索引擎機器人的爬行記錄,提示:插件剛啟動的時候robots_log.txt 文件還沒有建立,是個404頁面,要等有搜索引擎來過之后,才會建立這個文件.)
WordPress博客記錄搜索引擎蜘蛛爬行痕跡代碼:
1.首先,在wordpress主題根目錄建立一個robots.php文件,寫入以下內容,支持搜索引擎如下,可以記錄Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行網站的記錄!
php代碼如下:
- <?php
- function get_naps_bot()
- {
- $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
- if (strpos($useragent, 'googlebot') !== false){
- return 'Google';
- }
- if (strpos($useragent, 'baiduspider') !== false){
- return 'Baidu';
- }
- if (strpos($useragent, 'msnbot') !== false){
- return 'Bing';
- }
- if (strpos($useragent, 'slurp') !== false){
- return 'Yahoo';
- }
- if (strpos($useragent, 'sosospider') !== false){
- return 'Soso';
- }
- if (strpos($useragent, 'sogou spider') !== false){
- return 'Sogou';
- }
- if (strpos($useragent, 'yodaobot') !== false){
- return 'Yodao';
- }
- return false;
- }
- function nowtime(){
- $date=date("Y-m-d.G:i:s");
- return $date;
- }
- $searchbot = get_naps_bot();
- if ($searchbot) {
- $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
- $url=$_SERVER['HTTP_REFERER'];
- $file="www.49028c.com.txt";
- $time=nowtime();
- $data=fopen($file,"a");
- fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispagen");
- fclose($data);
- }
- //http://www.49028c.com收集整理
- ?>
將其上傳于你的主題目錄內.
2.在Footer.php或header.php的適當位置添加以下代碼調用robots.php,查看源代碼打印幫助:<?php include(’robots.php’) ?>
程序原理:通過對蜘蛛標識符(如Baiduspider、Googlebot)的判斷,記錄蜘蛛爬行時間,并生成日志文件robotslogs.txt于根目錄.
新聞熱點
疑難解答
圖片精選