以采集: http://ent.163.com/special/00031HA4/morenews_02.html 為例。
填寫要采集的地址到圖1的地方。

如果采集的頁面和網(wǎng)站的不一樣,需要填寫下編碼,你只需要點(diǎn)擊【程序輔助識別】,把識別出來的填寫到圖2的位置。

列表區(qū)域識別規(guī)則:查看文件源碼。復(fù)制你要采集的第一篇文章,查找源碼,圖3。

再向上隨便找一個代碼(中文也可以),但是要獨(dú)一無二的,怎么才是獨(dú)一無二的呢?同樣查找,把代碼放進(jìn)去,圖4查找上一個,再查找下一個,如果發(fā)現(xiàn)都找不到,這個就是獨(dú)一無二的,繼續(xù)復(fù)制要采集的最后一篇文章的標(biāo)題查找到后,往下找一個獨(dú)一無二的代碼然后填寫到圖5,中間代碼使用 [list] 替換。


文章鏈接 URL 識別規(guī)則:復(fù)制文章的鏈接圖6,放到圖7位置,按左邊說明進(jìn)行替換,網(wǎng)址使用 [url] 替換。


文章標(biāo)題識別規(guī)則:復(fù)制文章標(biāo)題進(jìn)行查找,不要找 這里的,選另一個地方的,復(fù)制到圖8的位置,也是按左邊的規(guī)則進(jìn)行替換。標(biāo)題文章使用 [subject] 替換。

文章內(nèi)容識別規(guī)則:和列表區(qū)域識別規(guī)則一樣,找文章的第一句話和最后一句話,然后上下找獨(dú)一無二的代碼,填寫在圖9的位置。文章內(nèi)容使用 [message] 替換。

這樣采集規(guī)則就寫好了,點(diǎn)擊提交保存。頁面跳轉(zhuǎn)后,點(diǎn)擊開始采集 圖10。

點(diǎn)擊【采集完成,點(diǎn)擊此處查看采集結(jié)果】,全選導(dǎo)入到你想要的板塊 圖11。

還需要更新下緩存,系統(tǒng)管理、更新緩存 圖12。

新聞熱點(diǎn)
疑難解答
圖片精選