3.1-采集教程(1例)

2024-08-30 19:06:10

字體：大中小

供稿：網(wǎng)友

采集是很多用戶感覺頭疼的事情，實(shí)際上也不是那么難的，現(xiàn)在我舉例給大家具體說明一下吧，可能不如錄像那么直觀，我盡量說明白一點(diǎn)。

要采集，則必須滿足服務(wù)器支持組件：Microsoft.XMLHTTP

點(diǎn)擊菜單欄的“常規(guī)治理”，選擇輔助工具里面的新聞采集。首先設(shè)置站點(diǎn)，根據(jù)采集對(duì)象頁(yè)面設(shè)置過濾條件，設(shè)置好之后進(jìn)行采集，然后審核數(shù)據(jù)，將數(shù)據(jù)進(jìn)行入庫(kù)，入庫(kù)之后的數(shù)據(jù)可以在歷史數(shù)據(jù)里面看到，歷史數(shù)據(jù)不刪除，則在采集的時(shí)候采集過的文章不會(huì)再次采集。假如刪掉了歷史數(shù)據(jù)則采集的時(shí)候不能過濾采集過的文章的。

下面以中華新聞網(wǎng)的娛樂新聞為例具體說明一下采集的設(shè)置，其地址是：

http://www.chinanews.com.cn/entertainment.shtml

一．站點(diǎn)設(shè)置：

1．建立站點(diǎn)：

選擇站點(diǎn)設(shè)置，進(jìn)入采集站點(diǎn)的設(shè)置。

首先選擇“新建站點(diǎn)”：

我們把站點(diǎn)名稱取名為“娛樂新聞”，入庫(kù)目標(biāo)欄目可以根據(jù)需要選擇，我設(shè)置為Test_1，采集對(duì)象頁(yè)面地址就填寫采集站點(diǎn)的地址：http://www.chinanews.com.cn/entertainment.shtml，模板當(dāng)然是自己選擇了，這里因?yàn)椴杉膶?duì)象頁(yè)面可能有圖，我設(shè)置了保存遠(yuǎn)程圖片，假如不需要采集對(duì)象頁(yè)面的圖片也可以不選擇。然后保存，則在后臺(tái)的站點(diǎn)設(shè)置里面可以看到我們剛剛建立的站點(diǎn)了。

接下來我們需要修改向?qū)Я恕?/P>

2．修改向?qū)В?/P>

點(diǎn)擊修改向?qū)е蟪霈F(xiàn)下面的界面：

這里就是我們剛剛建立站點(diǎn)設(shè)置的參數(shù)，直接點(diǎn)擊“下一步”，進(jìn)入設(shè)置獲取新聞列表的條件：

這時(shí)我們打開站點(diǎn)，查看采集對(duì)象頁(yè)面的源文件，最好是把源文件拷貝到DW（Dreamweaver）里面，這樣比較好找到適合的條件。

在DW里面查看新聞列表的源碼：

下圖陰影部分則為列表代碼：

從圖中我們可以看到列表開始的代碼是：<table width="100%" border="0" cellpadding="7">，最好是在源文件里面查一下是否這句代碼是否是唯一的。假如是唯一的，則可以在設(shè)置條件的框里面填上。假如不是唯一的，則可以擴(kuò)大代碼的范圍，一定要保證代碼的唯一性。

然后我們看一下列表代碼結(jié)束的地方

該頁(yè)面的列表代碼結(jié)束則是：</table>