一般我們采集規(guī)則寫好后,比較郁悶的就是內(nèi)容里的鏈接了,因?yàn)槲也幌肟吹絻?nèi)容里有別人網(wǎng)站的鏈接,當(dāng)然更不用說(shuō)廣告了。這里需要說(shuō)明的是,下面的方式只可以替換掉一些規(guī)則或者相對(duì)規(guī)則的鏈接和廣告,只要那些比較變態(tài)的網(wǎng)站在內(nèi)容里加很多隨機(jī)文字的,那就沒(méi)辦法了。
過(guò)濾廣告最簡(jiǎn)單的方式是在“過(guò)濾廣告正則”的輸入框里輸入相應(yīng)的正則,4.7以前的沒(méi)有帶,4.7以后的系統(tǒng)帶的有,下面是個(gè)比較全些的廣告過(guò)濾正則:
<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,<div[!--ad--]>,</div>,<DIV[!--ad--]>,</DIV>,<iframe[!--ad--]</iframe>,<IFRAME[!--ad--]</IFRAME>
基本上已經(jīng)夠了。
如果過(guò)濾內(nèi)容里的鏈接呢?這里可以在 過(guò)濾選項(xiàng) 的 替換:(針對(duì)標(biāo)題與內(nèi)容) 里輸入正則,多個(gè)用逗號(hào)分開,但是不要在這里寫<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,這樣的正則,因?yàn)檫@樣你會(huì)采不到頁(yè)面,呵呵,它把你采集的頁(yè)面都給過(guò)濾了。
新聞熱點(diǎn)
疑難解答
圖片精選