理論我就不多說了 可以看動易的手冊教程 下面就用一個案例來說明分頁采集的方法
采集網站案例地址:http://windows.chinaitlab.com/List_96.html
添加采集項目
建立項目:
列表設置
列表開始代碼:<div class="row2 border_kuang">
列表結束代碼:<!-- 分頁開始 -->
鏈接開始代碼:· <a href="
鏈接結束代碼:" target=_blank title="
列表采集效果:
頁面列表:
列表設置時注意 列表開始代碼和列表結束代碼 要取列表開始和結束的一些唯一的代碼 可用測試列表來測試列表是否正確 如果不正確重新查找正確的代碼 可用查找命令查找代碼是否唯一
鏈接開始代碼和鏈接結束代碼 取列表中鏈接地址前和后的一些鏈接代碼 可點測試鏈接進行鏈接測試 如果不正確 去掉"號前后的代碼試試
列表分頁設置 (可以根據自己的需要選擇是否有列表分頁)
批量指定分頁URL代碼:
http://windows.chinaitlab.com/List_96_{$ID}.html
ID范圍: 10 - 1
手動添加分頁URL代碼:
http://windows.chinaitlab.com/List_96_10.html
http://windows.chinaitlab.com/List_96_9.html
http://windows.chinaitlab.com/List_96_8.html
http://windows.chinaitlab.com/List_96_7.html
http://windows.chinaitlab.com/List_96_6.html
http://windows.chinaitlab.com/List_96_5.html
http://windows.chinaitlab.com/List_96_4.html
http://windows.chinaitlab.com/List_96_3.html
http://windows.chinaitlab.com/List_96_2.html
http://windows.chinaitlab.com/List_96_1.html
基本上現在的網站的列表分頁還是比較規則的 大多可以用 批量指定分頁URL代碼 和手動添加分頁URL代碼 來解決
內容頁采集設置
標題設置 (由于重點講分頁設置 所以在此 完整標題 副標題 關鍵字 和簡介 設置成和標題一樣的采集規則了 大家可以根據自己的需要自己設置 )
選中 使用采集規則
字段設置開始:
<title>
字段設置結束:-Windows頻道-中國IT實驗室</title>
文章內容
采集內容效果圖:
字段設置開始:<div class="Article_content">
字段設置結束:<div align=right style="margin:3px 0;">
文章內容采集規則設置中字段設置開始:和字段設置結束:也是找文章正文的開始和結束代碼
測試采集下一頁效果:
分頁設置
分頁代碼開始:[1] 分頁代碼開始一般找文章分頁列表地址的開始和結束部分唯一代碼 多嘗試幾次就明白
分頁代碼結束:.html'>下一頁
分頁URL開始代碼:<a href='
分頁URL結束代碼:'>
<P></p><p align='center'><b><font color='red'>[1]</font> <a >[2]</a> <a >[3]</a> <a >[4]</a> <a >[5]</a> <a >[6]</a> <a >[7]</a> <a >[8]</a> <a >[9]</a> <a >[10]</a> <a >下一頁</a> </b></p>
是否保存遠程圖片 是否保存圖片可以根據自己的需要 保存的話就保存到自己的網站服務器了 還有一點是相對鏈接的圖片最好保存 要不也是顯示不了圖片的
字段采集頁面效果:
正在采集中效果圖:
采集后內容頁顯示效果:
然后保存測試就可以了 測試完可以采集一些看下效果 如果文章顯示不正確說明采集規則設置有問題 可以重新設置或修改下就可以 由于每個網站的采集規則都不太一樣 所以可以根據每個網站的規則自行設置 多測試多制作規則就了解其中的規律了,也由于一個網站的局限性只能說說采集的一些常用和實用的一些功能 其他的一些功能可以參考手冊也可以自己研究哈 我也是用戶所以難免有錯誤或疏忽的地方也請大家指正和包涵哦。
新聞熱點
疑難解答
圖片精選