亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 網站 > 優化推廣 > 正文

SEO URL規劃應該怎么做

2024-04-26 14:07:49
字體:
來源:轉載
供稿:網友

在開始講這些問題之前,需要先閱讀完以下文檔:

《優化網站的抓取與收錄》 http://www.google.cn/ggblog/googlewebmaster-cn/2009/08/blog-post.html

《谷歌搜索引擎入門指南》第7頁到11頁。 點此下載

《創建方便 Google 處理的網址結構》 http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=76329

這些都是google官方的文檔,講述了各種各樣的規則。這些對百度也是同樣適用的,因為它是針對爬蟲的特性提出來的,并不是只有某個搜索引擎才適用。

看完上面的那些這些規則,發現翻來覆去講得都是怎么讓爬蟲能非常順暢的抓取完整個網站。其實絕大部分網站都存在這樣或那樣的問題的,也包括我這個博客,在抓取方面也存在一些問題。但是看在每篇博文都能被收錄的情況下,也就不去優化了。但是對于很多收錄還成問題的網站(特別是大中型網站)來說,就要好好規劃一下了。大家可以用HTTrack抓取semyj這個博客看看,就能發現為什么我這么說了。(誰能一天之內抓取完這個博客的人請告訴我。)

還是先從搜索引擎的處境講起吧。正如Google在文章中寫道的那樣:

網絡世界極其龐大;每時每刻都在產生新的內容。Google 本身的資源是有限的,當面對幾近無窮無盡的網絡內容的時候,Googlebot 只能找到和抓取其中一定比例的內容。然后,在我們已經抓取到的內容中,我們也只能索引其中的一部分。

URLs 就像網站和搜索引擎抓取工具之間的橋梁: 為了能夠抓取到您網站的內容,抓取工具需要能夠找到并跨越這些橋梁(也就是找到并抓取您的URLs)。

這段話很好的總結了搜索引擎所面臨的處境,那么爬蟲在處理URL的時候會遇到哪些問題呢?

我們先來看重復URL的問題,這里說的重復URL是指同一個網站內的不同頁面,都存在很多完全相同的URL。如:

http://www.semyj.com/archives/1097 和 http://www.semyj.com/archives/1114 這兩個頁面。

模板部分的URL是一樣的

模板部分的URL是一樣的

雖然頁面不同,但是他們公用的部分,URL地址是一樣的??雌饋砣绻煌呐老x抓取到這些頁面的時候,會重復抓取,從而浪費很多不必要的時間。 這確實是一個問題,不過這個問題搜索引擎倒是基本解決好了。實際上,爬蟲的抓取模式不是像我們理解的那樣看到一個網頁就開始抓取一個網頁的。

爬蟲順著一個個的URL在互聯網上抓取網頁,它一邊下載這個網頁,一邊在提取這個網頁中的鏈接。假設從搜索引擎某一個節點出來的爬蟲有爬蟲A、爬蟲B、爬蟲C,當它們到達semyj這個網站的時候,每個爬蟲都會抓取到很多URL,然后他們都會把那個頁面上所有的鏈接都放在一個公用的“待抓取列表”里。(可以用lynx在線版模擬一下爬蟲提取鏈接。)

待抓取列表

待抓取列表

這樣一來,在“待抓取列表”里,那些重復的URL就可以被去重了。這是一個節點在一種理想狀態下的情況,不過實際上因為搜索引擎以后還要更新這個網頁等等一些原因,一個網站每天還是有很多重復抓取。所以在以前的文章中,我告訴大家用一些方法減少重復抓取的幾率。

這里有一個問題,很多人肯定想問是不是一個網頁上所有的鏈接搜索引擎都會提取的,答案是肯定的。但是在《google網站質量指南》中,有這樣一句:“如果站點地圖上的鏈接超過 100 個,則需要將站點地圖拆分為多個網頁。”有些人把這句話理解為:“爬蟲只能抓取前100個鏈接”,這是不對的。

因為在“待抓取列表”里的URL,爬蟲并不會每一個鏈接都會抓取的。 鏈接放在這個列表里是沒問題的,但是爬蟲沒有那么多時間也沒必要每個鏈接都要去抓取,需要有一定的優先級。在“待訪問列表”里,爬蟲一邊按照優先級抓取一部分的URL,一邊把還未被抓取的URL記錄下來等待下次抓取,只是這些還未被抓取的URL,下次爬蟲來訪問的頻率就每個網站都不一樣了, 每一類URL被訪問的頻率也不一樣。

按優先級抓取

按優先級抓取

那么在“待抓取列表”里的URL,哪些是能被優先抓取,哪些是被次要抓取的呢?

我們稍微思考一下都能明白這個抓取的優先級策略應該怎么定。首先,那些目錄層級比較深的URL是次要抓取的;那些在模板部分的或重復率非常高的URL是被次要抓取的;那些動態參數多的URL是次要抓取的…。.

這么做的原因,就是因為搜索引擎的資源是有限的,一個網站實際擁有的內容也是有限的,但是URL數量是無限的。爬蟲需要一些“蛛絲馬跡”來確定哪些值得優先抓取,哪些不值得。

在《谷歌搜索引擎入門指南》中,google建議要優化好網站的URL結構,如建議不要用“…/dir1/dir2/dir3/dir4/dir5/dir6/page.html”這樣的多層嵌套。就是因為在待抓取列表里,在其他條件相同的情況下,爬蟲會優先抓取目錄層級淺的URL。如用Lynx在線版查看本網站的頁面:

抓取優先級

抓取優先級

如果說,在這17個鏈接里,爬蟲只能選幾個鏈接抓取的話,紅色箭頭所指的鏈接在其他條件相同的情況下是要優先的。

但是這里又有一個誤區,有人在SEO過程中,把所有的網頁都建立在根目錄下,以為這樣能有排名的優勢。這樣也是沒有理解這個原因。而且爬蟲在這個網站上先抓取哪些URL后抓取哪些URL,都是自己的URL和自己的URL比,如果所有網頁都是在同一個目錄下,那就沒有區別了。

最好的規劃URL目錄層級的方式,就是按照業務方的邏輯來規劃,從內容上應該是什么從屬關系就怎么規劃URL就是。就像《谷歌搜索引擎入門指南》中舉的那些例子一樣。

(順帶說一下。我經??吹?,一個網站中,很多人非SEO的人員,如工程師和網頁設計人員或者網站編輯,都以為SEO和他們做的事情是相反的。這都是因為長期以來一些SEOer經常提交很多明顯違反用戶體驗的SEO需求給他們,造成他們以為SEO就是和他們做的事情是有沖突的。實際上,SEO和別的部門有非常少的沖突,只要你能用科學的方法去實踐,就能發現以前有太多誤導人的觀點了。還有,對于其他部門的專業人員,他們專業領域的意見非常值得去考慮。)

爬蟲有一個特點,就是它不能實時的比較它正在抓取的內容是不是重復的內容。因為如果要做到實時的比較,那它至少要把正在抓取的頁面和那些已經在索引庫的頁面做對比,這是不可能短時間內可以完成的。 前面把所有URL統一放到一個待抓取列表中的方法只能避免那種URL完全一模一樣的重復抓取,但是無法應對URL不一樣、但是內容一樣的抓取。

正如所有搜索引擎都強調的那樣,動態參數是一個經常產生URL不一樣、但是內容一樣的現象的原因。所以搜索引擎建議大家用靜態化的方法去掉那些參數。靜態化的本質是URL唯一化,在《優化網站的抓取與收錄》這篇文章中,曾經用的“一人一票”這個描述就很貼切的表達了這個意思。靜態化只是一個手段而不是目的,為了保證URL的唯一化,可以把URL靜態化、也可以用robots.txt或nofollow屏蔽動態內容、可以用rel=canonical屬性、還可以在webmaster tool里屏蔽一些參數等等。

而靜態化也會有好的靜態化和不好的靜態化之別。我們這里不說那種把多個參數直接靜態化了的案例,而是單純來看看如下兩個URL:

http://www.semyj.com/archives/1097和 http://www.semyj.com?p=1097

這兩個URL中,這個靜態化的是不是就比動態的好呢? 實際上這兩個URL的差別很小。首先這兩種URL搜索引擎都能收錄,如果說動態URL“?p=1097”可能產生大量重復的內容讓爬蟲抓取,那這個靜態的URL“archives/1097”也不能保證不會產生大量重復的內容。特別是爬蟲在抓取時碰到大量有ID的靜態的URL時,爬蟲無法判斷這個網站是不是把session ID等參數靜態化了才造成的,還是這個網站本來就有這么多內容。 所以更好的靜態化是這樣的:

http://www.semyj.com/archives/seo-jingli

這種URL就能保證唯一化而不會和其他情況混淆了,所以URL中要盡量用有意義的字符。這不是因為要在URL增加關鍵詞密度而這么做的,是為了方便搜索引擎抓取。

以上是因為爬蟲固有的特點造成的抓取障礙,而有時網站的結構也能造成爬蟲的抓取障礙。這種結構在《優化網站的抓取與收錄》一文中用的名字是“無限空間”。文中舉了一個日歷的例子:如很多博客上都會有一個日歷,順著這個日歷的日期一直往下點,永遠都有鏈接供你點擊的,因為時間是無限的。

其實還有更多的“無限空間”的例子,只是“無限空間”這個名詞沒怎么翻譯好,翻譯做“無限循環”就容易理解多了。 舉一個例子:

京東商城筆記本分類頁面: http://www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html

篩選條件

篩選條件

當點擊“惠普”+“11英寸”這2個條件后能出來一個頁面,點擊“聯想”+“14英寸”+“獨立顯卡”也能出來一個頁面。那總共能出來的頁面有多少呢?

這個頁面中,品牌有18個分類、價格9個分類、尺寸7個分類、平臺3個分類、顯卡2個分類。 那么可以組合成的URL個數為:

按1個條件篩選: 18+9+7+3+2 = 39 。

按2個條件篩選:18×9+18×7+18×3+18×2+9×7+9×3+9×2+7×3+7×2+3×2=527 。

按3個條件篩選:18×9×7+18×9×3+18×9×2+18×7×3+18×7×2+18×3×2+9×7×3+9×7×2+9×3×2+7×3×2=3093。

按4個條件篩選:18×9×7×3+18×9×7×2+18×7×3×2+18×9×3×2+9×7×3×2=7776。

按5個條件篩選:18×9×7×3×2=6804。

總共可以組合出的URL數量為:39+527+3093+7776+6804=18239 個。

筆記本分類里總共才 624個商品,要放在18239個頁面中,而有的頁面,一個頁面就能放32個產品。勢必造成大量的頁面是沒有商品的。如點擊這幾個篩選條件后,就沒有匹配的商品出來了:

無結果

無結果

這樣的結果,就是造成大量重復的內容以及消耗爬蟲很多不必要的時間,這也可以認為是“無限空間”。 這類情況非常常見。如

無限空間

某房產網的無限空間

上面舉的京東商城的例子還是不怎么嚴重的,有的網站能組合出幾億甚至無窮無盡個URL出來。我在國內和國外看過那么多同類的網站,居然發現迄今為止只有兩家網站注意到了這個問題。究其原因,還是因為很多SEO人員不太重視數據,這種問題稍微分析爬蟲的日志就可以看出來的。直到現在,還有一些SEOer認為把這些以前是動態的頁面靜態化是個有積極意義的事情,沒看到不好的一面就是這樣的動作制造出了大量重復的頁面,向來就是一個在SEO方面不好的改動。

文章來源:http://www.semyj.com/archives/1136

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美理论电影在线播放| 欧美日韩aaaa| 不卡在线观看电视剧完整版| 国产精品久久久久久亚洲影视| 亚洲片在线观看| 亚洲国产精品一区二区久| 亚洲韩国青草视频| 亚洲美女激情视频| 久久久天堂国产精品女人| 亚洲国产另类久久精品| 亚洲激情在线观看视频免费| 国产精品jvid在线观看蜜臀| 日本一区二区三区在线播放| 日韩免费电影在线观看| 色无极影院亚洲| 亚洲日本成人女熟在线观看| 亚洲天堂av在线免费观看| 亚洲国产成人精品一区二区| 亚洲一区二区三区视频播放| 日韩av男人的天堂| 色天天综合狠狠色| 亚洲淫片在线视频| 亚洲精品91美女久久久久久久| 欧美在线免费视频| 日韩一级裸体免费视频| 日韩中文字幕网站| 亚洲xxx自由成熟| 日韩av中文字幕在线播放| 夜夜嗨av一区二区三区免费区| 亚洲专区在线视频| 国产精品综合久久久| 亚洲一区二区少妇| 日韩在线观看免费av| 亚洲香蕉成视频在线观看| 国产偷亚洲偷欧美偷精品| 国产精品久久久久久久7电影| 亚洲男女性事视频| 96pao国产成视频永久免费| 26uuu亚洲伊人春色| 国产精品日韩在线播放| 国产精品日本精品| 亚洲无av在线中文字幕| 欧美激情aaaa| 欧美黄色小视频| 亚洲已满18点击进入在线看片| 日韩精品在线看| 亚洲精品电影在线| 久久久久久久成人| 国产精品久久久久久五月尺| 国产美女扒开尿口久久久| 在线观看精品国产视频| 亚洲xxxx视频| 欧美一级淫片丝袜脚交| 欧美重口另类videos人妖| 亚洲国产福利在线| 久久网福利资源网站| 国产一区二区动漫| 中文字幕av一区二区三区谷原希美| 亚洲成色www8888| 久久久亚洲精选| 精品一区二区电影| 亚洲老司机av| 国产成人综合久久| 国产一区二区av| 国内揄拍国内精品| 亚洲在线第一页| 91精品国产高清自在线看超| 亚洲黄色av女优在线观看| 国产精品444| 日韩麻豆第一页| 亚洲国产成人一区| 欧美成人午夜免费视在线看片| 午夜精品福利在线观看| 久久青草精品视频免费观看| 91精品国产免费久久久久久| 欧美一区二区三区精品电影| 日韩色av导航| 日韩av片永久免费网站| 国产九九精品视频| 国产精品亚洲第一区| 777午夜精品福利在线观看| 日韩a**站在线观看| 亚洲欧美一区二区激情| 日韩美女在线观看一区| 91在线|亚洲| 亚洲男人天堂2024| 日韩激情视频在线播放| 亚洲欧美一区二区激情| 国产精品网站视频| 亚洲97在线观看| 91九色单男在线观看| 亚洲天堂精品在线| 亚洲国产日韩欧美在线99| 日韩欧美精品在线观看| 国产精品九九久久久久久久| 97高清免费视频| 中文字幕欧美在线| 久久夜色精品国产亚洲aⅴ| 久久97精品久久久久久久不卡| 亚洲国产私拍精品国模在线观看| 成人免费在线视频网站| 在线一区二区日韩| 26uuu国产精品视频| 2019中文字幕在线免费观看| 久久久噜噜噜久久久| 正在播放欧美一区| 国产精品27p| 国产精品久久久久久久久免费| 亚洲午夜精品视频| 成人福利网站在线观看11| 亚洲一区美女视频在线观看免费| 国产精品v片在线观看不卡| 中文字幕在线亚洲| 91亚洲国产成人久久精品网站| 久久久久久久久爱| 亚洲精品白浆高清久久久久久| 国模私拍一区二区三区| 亚洲欧洲高清在线| 日韩人在线观看| 一本大道香蕉久在线播放29| 欧美重口另类videos人妖| 一区二区福利视频| 国产狼人综合免费视频| 亚洲精品videossex少妇| 国产欧美日韩免费| 一区二区欧美亚洲| 成人免费网站在线看| 影音先锋日韩有码| 亚洲精品久久久久国产| 国产美女精彩久久| 欧美日韩视频在线| 成人性生交大片免费看小说| 欧美精品在线网站| 亚洲欧美一区二区三区在线| 国产精品一区二区女厕厕| 91精品免费久久久久久久久| 午夜精品久久久久久久男人的天堂| 精品中文字幕在线| 色av吧综合网| 日韩欧美a级成人黄色| 午夜精品一区二区三区在线视频| 国产精品福利在线| 欧美激情视频网| 国产精品成人品| 久久免费精品日本久久中文字幕| 国产999精品久久久影片官网| 亚洲三级av在线| 久久免费精品视频| 久久69精品久久久久久久电影好| 欧洲日本亚洲国产区| 精品亚洲国产视频| 国产在线精品播放| 午夜精品美女自拍福到在线| 精品久久久久久亚洲国产300| 欧美性猛交丰臀xxxxx网站| 亚洲在线www| 欧美大片免费观看| 一色桃子一区二区| 亚洲乱码国产乱码精品精| 久久久亚洲精品视频| 亚洲最大福利视频| 国产精品视频永久免费播放| 亚洲3p在线观看| 日韩毛片在线看|