采集是很多用戶感覺頭疼的事情,實際上也不是那么難的,現在我舉例給大家具體說明一下吧,可能不如錄像那么直觀,我盡量說明白一點。
要采集,則必須滿足服務器支持組件:Microsoft.XMLHTTP
點擊菜單欄的“常規治理”,選擇輔助工具里面的新聞采集。首先設置站點,根據采集對象頁面設置過濾條件,設置好之后進行采集,然后審核數據,將數據進行入庫,入庫之后的數據可以在歷史數據里面看到,歷史數據不刪除,則在采集的時候采集過的文章不會再次采集。假如刪掉了歷史數據則采集的時候不能過濾采集過的文章的。
下面以中華新聞網的娛樂新聞為例具體說明一下采集的設置,其地址是:
http://www.chinanews.com.cn/entertainment.shtml
一. 站點設置:
1. 建立站點:
選擇站點設置,進入采集站點的設置。
首先選擇“新建站點”:
我們把站點名稱取名為“娛樂新聞”,入庫目標欄目可以根據需要選擇,我設置為Test_1,采集對象頁面地址就填寫采集站點的地址:http://www.chinanews.com.cn/entertainment.shtml,模板當然是自己選擇了,這里因為采集的對象頁面可能有圖,我設置了保存遠程圖片,假如不需要采集對象頁面的圖片也可以不選擇。然后保存,則在后臺的站點設置里面可以看到我們剛剛建立的站點了。
接下來我們需要修改向導了。
2. 修改向導:
點擊修改向導之后出現下面的界面:
這里就是我們剛剛建立站點設置的參數,直接點擊“下一步”,進入設置獲取新聞列表的條件:
這時我們打開站點,查看采集對象頁面的源文件,最好是把源文件拷貝到DW(Dreamweaver)里面,這樣比較好找到適合的條件。
在DW里面查看新聞列表的源碼:
下圖陰影部分則為列表代碼:
從圖中我們可以看到列表開始的代碼是:<table width="100%" border="0" cellpadding="7">,最好是在源文件里面查一下是否這句代碼是否是唯一的。假如是唯一的,則可以在設置條件的框里面填上。假如不是唯一的,則可以擴大代碼的范圍,一定要保證代碼的唯一性。
然后我們看一下列表代碼結束的地方
該頁面的列表代碼結束則是:</table>
這樣我們找到了列表的開始代碼和結束代碼,在這兩句代碼直接則是我們需要獲取的新聞列表了,所以我們設置的條件則是如下:
這里不設置分頁,所以直接點擊下一步進入新聞鏈接的條件設置:
這個時候你可以看到頁面分為了三部分:列表URL條件設置部分,代碼部分,結果部分,假如上一步設置正確,則這里的代碼部分和結果部分就會顯示獲取到的新聞列表的代碼和新聞列表了。
這里我們開始設置獲取鏈接的代碼:
陰影部分是一條新聞的代碼,則我們可以看到,新聞的鏈接路徑代碼是:
新聞熱點
疑難解答