亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 網(wǎng)站 > 建站經(jīng)驗(yàn) > 正文

火車頭采集器教程有哪些

2024-08-30 19:07:33
字體:
供稿:網(wǎng)友

火車頭采集器教程有哪些,如何了解火車頭采集器教程?

感謝您選擇火車頭數(shù)據(jù)采集平臺(tái)?;疖囶^數(shù)據(jù)采集平臺(tái)為用戶提供了火車采集器等多款數(shù)據(jù)采集工具,使用它,您可以快速方便的得到自己需要的數(shù)據(jù)。

火車頭數(shù)據(jù)采集平臺(tái)簡介

功能特性

火車頭數(shù)據(jù)采集平臺(tái)是一款通用型數(shù)據(jù)采集程序框架。它包含了數(shù)據(jù)采集最常用的計(jì)劃任務(wù),數(shù)據(jù)發(fā)布,正文識(shí)別、OCR圖形圖像識(shí)別,采集入庫等模塊,可以支持其它采集軟件快速穩(wěn)定在平臺(tái)上使用。火車頭采集平臺(tái)定義了統(tǒng)一的接口規(guī)范并提供了大量的api,用戶可以很方便的開發(fā)自己的應(yīng)用并在該平臺(tái)上運(yùn)行,可以減少開發(fā)上時(shí)間和成本。目前平臺(tái)上有官方自帶火車采集器。

安裝升級(jí)及卸載

1.系統(tǒng)需求

操作系統(tǒng):Win7,WinXP,Win2008,Win2003,Windows 2000等windows內(nèi)核的操作系統(tǒng)上

硬件配置:CPU主頻1.6G以上,內(nèi)存1G以上,分辨率至少為1024*768,網(wǎng)絡(luò)帶寬1Mbps以上。

必要組件:軟件需要安裝.NET FrameWork 2.0框架,如程序不能打開,請下載微軟的.NET FrameWork 2.0框架并安裝。.net framework 2.0下載地址:

32位操作系統(tǒng):http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe

64位操作系統(tǒng):http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe2

2.程序的安裝

將下載后的壓縮包直接解壓縮到您電腦的任何地方即可完成采集器的安裝--安裝過程不操作注冊表和系統(tǒng)文件,不產(chǎn)生任圾文件!

3.程序的升級(jí)

運(yùn)行程序目錄下AutoUpdate.exe按提示進(jìn)行升級(jí)。

4程序的卸載

直接刪除采集器整個(gè)安裝文件夾即可以完成程序的卸載。在卸載前強(qiáng)烈建議您備份Configuration,Extensions,Data和Module文件夾(即用戶配置,擴(kuò)展目錄,采集數(shù)據(jù)和模塊)以便下次使用!采集相關(guān)術(shù)語

火車采集器  幫助文檔

1.采集規(guī)則

簡稱規(guī)則,V7以前版本采集規(guī)則分為站點(diǎn)規(guī)則和任務(wù)規(guī)則,通常是指任務(wù)規(guī)則。V7版及以后采用無限級(jí)分組管理任務(wù)規(guī)則,所以不再有站點(diǎn)規(guī)則的概念。所謂采集規(guī)則就是要采集一個(gè)網(wǎng)站或某一網(wǎng)站欄目網(wǎng)頁需要在軟件里進(jìn)行的設(shè)置。這個(gè)設(shè)置可以從軟件里導(dǎo)出保存成一個(gè)文件并可以再導(dǎo)入到軟件里。V7版的任務(wù)規(guī)則文件后綴名為.ljobx,以前的站點(diǎn)規(guī)則文件的后綴名為:.lsite;任務(wù)規(guī)則文件的后綴名為:.ljob。

2.采集任務(wù)

采集任務(wù)又簡稱為任務(wù)。它是采集規(guī)則和發(fā)布規(guī)則的總和。也是采集規(guī)則和發(fā)布規(guī)則的載體。采集規(guī)則和發(fā)布規(guī)則的設(shè)置通過在任務(wù)編輯框里進(jìn)行設(shè)置。從采集器里導(dǎo)出的采集規(guī)則文件(.ljobx后綴的)也可稱為任務(wù)規(guī)則。導(dǎo)入導(dǎo)出任務(wù)規(guī)則就是指導(dǎo)入導(dǎo)出.ljobx文件。

3.發(fā)布模塊

發(fā)布模塊又稱模塊、發(fā)布規(guī)則,分為WEB發(fā)布模塊和數(shù)據(jù)庫發(fā)布模塊。所謂發(fā)布模塊就是在需要將已經(jīng)采集的數(shù)據(jù)發(fā)布到目的地(比如:網(wǎng)站/后臺(tái)中或指定數(shù)據(jù)庫中)時(shí)在軟件里進(jìn)行的設(shè)置。這個(gè)設(shè)置可以保存成一個(gè)文件并可以導(dǎo)入到采集器里使用。數(shù)據(jù)庫發(fā)布模塊文件的后綴名為:.dpm;WEB在線發(fā)布模塊文件的后綴名為:.wpm。(采集規(guī)則和發(fā)布模塊都可以從采集器里導(dǎo)出,也都可以導(dǎo)入到采集器中使用。采集規(guī)則負(fù)責(zé)將網(wǎng)頁上的數(shù)據(jù)采集下來,發(fā)布模塊負(fù)責(zé)將采集的數(shù)據(jù)發(fā)布到網(wǎng)站中。可見,采集規(guī)則的編寫和修改和被采集的網(wǎng)站有關(guān)系,而發(fā)布模塊的編寫和修改和要發(fā)布數(shù)據(jù)的網(wǎng)站有關(guān)系。如從不同的網(wǎng)站欄目采集數(shù)據(jù)往同一個(gè)網(wǎng)站的某個(gè)板塊(頻道)里發(fā)布,需要多個(gè)采集規(guī)則和一個(gè)發(fā)布模塊。從一個(gè)網(wǎng)站欄目采集數(shù)據(jù)往不同的網(wǎng)站系統(tǒng)里發(fā)布,需要一個(gè)采集規(guī)則和多個(gè)發(fā)布模塊。注意這里的說的采集規(guī)則是指采集網(wǎng)站和抓取內(nèi)容的設(shè)置。)

4.標(biāo)簽

標(biāo)簽是指用來提取某項(xiàng)內(nèi)容信息的一個(gè)字段名字,由用戶在編輯規(guī)則的時(shí)候指定。比如標(biāo)題,手機(jī)號(hào),郵件,作者,內(nèi)容標(biāo)簽,采集到的信息則在發(fā)布模塊中就可以通過該標(biāo)簽名對應(yīng)獲取到,格式為[標(biāo)簽:標(biāo)簽名]如[標(biāo)簽:標(biāo)題],標(biāo)簽在火車采集器里面有分為兩種:分別為列表頁標(biāo)簽和內(nèi)容頁標(biāo)簽,顧名思義,列表頁標(biāo)簽就是在獲取列表頁時(shí)(即采網(wǎng)址時(shí))就獲取到內(nèi)容信息,內(nèi)容頁標(biāo)簽是在獲取內(nèi)容頁或多頁內(nèi)容時(shí)(采內(nèi)容)才獲取內(nèi)容信息。

注:通常還有一種說法為 html標(biāo)簽,這里的標(biāo)簽是指一些html代碼里面的屬性標(biāo)識(shí)符,如:<a href里面的a標(biāo)簽,里面的font標(biāo)簽為html標(biāo)簽,該術(shù)語在內(nèi)容處理的html標(biāo)簽排除項(xiàng)出現(xiàn)。

5.起始網(wǎng)址

用來獲取下級(jí)鏈接地址的入口網(wǎng)址,可以為一條或多條,可以通過添加起始網(wǎng)址向?qū)砑油袷蕉鄺l網(wǎng)址或?qū)胛谋揪W(wǎng)址。這里的起始網(wǎng)址相當(dāng)于2010版以前的0級(jí)網(wǎng)址的概念。如果沒有定義多級(jí)網(wǎng)址的獲取方法,這些地址即作為內(nèi)容頁網(wǎng)址進(jìn)行內(nèi)容采集。

6.多級(jí)網(wǎng)址

依次根據(jù)列表里面的多級(jí)網(wǎng)址順序采集分析地址,多級(jí)網(wǎng)址相當(dāng)于2010版以前的1級(jí),2級(jí),3級(jí)到N級(jí)的概念。通過依次采集分析到最后一級(jí)得到內(nèi)容頁地址。多級(jí)網(wǎng)址的獲取可以使用自動(dòng)分析,手工分析及Xpath可視化提取方法采集下級(jí)網(wǎng)址,在采集的過程中,可以同時(shí)采集列表分頁及提取列表頁附加參數(shù)。

7.Cookie

簡單地說,就是在Http請求訪問中記錄您的用戶信息即登錄信息的一段用于與服務(wù)器進(jìn)行交互的字符串。在瀏覽器中使用時(shí)通常還會(huì)以文本形式記錄到您的IE緩存目錄中以便下次在有效期內(nèi)不用輸入用戶信息即可繼續(xù)訪問驗(yàn)證權(quán)限的網(wǎng)頁。

8.User-Agent

這是用來向服務(wù)器通知您使用的客戶端是IE6,IE7,FireFox或是某某抓取蜘蛛,在某些需要登錄的網(wǎng)頁可能同時(shí)驗(yàn)證Cookie和User-Agent所以可能需要您將其設(shè)置為與本機(jī)瀏覽器同樣的格式。

9.分頁

比如這篇文章頁面:http://ent.qq.com/music/a/20050516/000026.htm它的內(nèi)容比較長,分成了7頁顯示出來,而真正的內(nèi)容需要將7頁的內(nèi)容組合起來。這樣的7個(gè)子頁面就是分頁。

10.多頁

比如綠盟的這篇頁面:http://www.xdowns.com/soft/1/30/2008/Soft_45507.html,我們要獲取其下載地址,而下載地址是需要打開一個(gè)新頁面才能看到,在http://www.xdowns.com/soft/softdown.asp?softid=45507這個(gè)頁面中,我們稱后面這種頁面為多頁。

同理要獲取http://product.it168.com/detail/doc/395075/index.shtml這樣一個(gè)產(chǎn)品頁里面的所有對應(yīng)的信息,用一條規(guī)則搞定,則需要定義比如報(bào)價(jià)多頁:http://product.it168.com/detail/doc/395075/price.shtml,參數(shù)多頁:http://product.it168.com/detail/doc/395075/detail.shtml,圖片多頁:http://product.it168.com/detail/doc/395075/pic.shtml等等。V7的無限級(jí)多頁規(guī)則可以在多頁里面繼續(xù)設(shè)置多頁或橋頁采集下級(jí)內(nèi)容,比如該例中的圖片多頁:http://product.it168.com/detail/doc/395075/pic.shtml里面還分為:外觀圖片,細(xì)節(jié)圖片,配件圖片,要獲取到配件圖片的所有內(nèi)容則需要繼續(xù)定義一個(gè)基于圖片多頁的二級(jí)深度的配件圖片多頁:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在該多頁中定義標(biāo)簽采集到您所需要的信息。

11.正則

是指一個(gè)用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串。 詳見百度百科: http://baike.baidu.com/view/94238.htm,比如d+可以匹配到一個(gè)或多個(gè)數(shù)字。在這里收錄了一篇正則表達(dá)式的30分鐘經(jīng)典教程: http://help.locoy.com/Document/Learn_Regex_For_30_Minutes.htm

火車采集器里面有純正則,還有一種基于參數(shù)匹配的偽正則,在匹配時(shí)使用[參數(shù)]標(biāo)簽代替您想提取的字符串,在組合時(shí)使用對應(yīng)序號(hào)的[參數(shù)1],[參數(shù)2],[參數(shù)N]來組合出需要的字符串。詳見下面的[參數(shù)]術(shù)語項(xiàng)。

[參數(shù)]

用來匹配某項(xiàng)準(zhǔn)備提取信息的標(biāo)記標(biāo)簽,如想要在以下代碼中提取組合出某種格式。以從代碼"mClk(this,'108484','134217', '168475','1');"中提取組合出新的地址格式為例。

"mClk(this,'[參數(shù)]','[參數(shù)]', '[參數(shù)]','1'); ",按照次序,108484參數(shù)就是參數(shù)1,依次類推。實(shí)際需要的地址為以下的地址格式:bbs/read.php?id=[參數(shù)1]&sort=[參數(shù)3]&action=[參數(shù)2],上面代碼中的3個(gè)參數(shù)和下面地址中的id,soft和action參數(shù)要對應(yīng)相應(yīng)的值,次序不要顛倒。這樣就組合成了新的地址格式。

(*)

(*)為通配符,在火車采集器可以在起始地址中代表頁碼數(shù),在標(biāo)簽規(guī)則,模塊或其他設(shè)置中可匹配代表任意字符串,如(*)可以匹配到xxx字符串也可以匹配到y(tǒng)y字符串。

12.Cron表達(dá)式

它是一個(gè)由6或7個(gè)子表達(dá)式組成的字符串。每一個(gè)表達(dá)式代表一個(gè)域,每個(gè)域描述了一個(gè)單獨(dú)的日程細(xì)節(jié)且每個(gè)域之間使用空格分隔,它由兩種格式組成。

Seconds Minutes Hours DayofMonth Month DayofWeek Year或

Seconds Minutes Hours DayofMonth Month DayofWeek

一個(gè)Cron表達(dá)式至少有6或7個(gè)有空格分隔的時(shí)間元素,每個(gè)時(shí)間元素都使用數(shù)字,但還可以出現(xiàn)如下特殊字符,他們的含義分別表示:

1.Seconds 秒 (允許值為0-59,允許的特殊符號(hào),- * /)

2.Minutes 分鐘 (允許值為0-59,允許的特殊符號(hào),- * /)

3.Hours 小時(shí) (允許值為0-23,允許的特殊符號(hào),- * /)

4.Day-of-Month 月中的天 (允許值為1-31,允許的特殊符號(hào),- * / ? L W C)

5.Month 月 (允許值為1-12或者JAN-DEC,允許的特殊符號(hào),- * /)

6.Day-of-Week 周中的天 (允許值為1-7或者SUN-SAT,允許的特殊符號(hào),- * / ? L C #)

7.Year (optional field) 年(可選的域,允許值為留空或者1970-2099,允許的特殊符號(hào),- * /)

特殊字符含義:

(1) * 表示該域的任意值。如在Minutes域使用*,即表示每分鐘都會(huì)觸發(fā)事件。

(2) ? 只能用在DayofMonth和DayofWeek兩個(gè)域。實(shí)際上不會(huì)匹配域的任意值,因?yàn)镈ayofMonth和DayofWeek會(huì)相互影響。如想在每月的20日觸發(fā)調(diào)度,不管20日是周幾,則只能使用如下寫法:13 13 15 20 * ?,其中最后一位只能用?,而不能用*,如果使用*表示每月的20號(hào)15時(shí)13分13秒不管是周幾都會(huì)觸發(fā),實(shí)際上不是的。

(3) – 表示范圍,如在Minutes域中使用5-20,表示5到20分鐘每分鐘觸發(fā)一次

(4) / 表示起始時(shí)間開始觸發(fā),然后每隔固定時(shí)間觸發(fā)一次。如在Minutes域中使用5/20,表示從分鐘數(shù)5開始每隔20分鐘觸發(fā)一次,結(jié)果25,45,05等分別觸發(fā)一次。

(5) , 表示列出枚舉值。如在Minutes域中使用5,20,則表示5分鐘和20分鐘每分鐘觸發(fā)一次。

(6) L 表示最后,只能出現(xiàn)在DayofMonth和DayofWeek域。

(7) W 表示有效工作日(周一到周五),只能出現(xiàn)在DayofMonth域中,系統(tǒng)將在離指定日期最近的有效工作日觸發(fā)事件。另外,W的最近尋找不會(huì)跨過月份。

(8) # 用于確定每個(gè)月第幾個(gè)星期幾,只能出現(xiàn)在DayofMonth域中。如4#2表示某月的第二個(gè)星期四。

而在新版火車采集器計(jì)劃任務(wù)管理器計(jì)劃任務(wù)設(shè)置中,可以設(shè)置完整的cron表達(dá)式。如0 15 08 ? * MON-FRI 表示每周一到周五的早上8點(diǎn)15分開始定時(shí)更新數(shù)據(jù)。

13.Http請求

瀏覽器打開網(wǎng)頁時(shí)實(shí)際就是發(fā)送一個(gè)又一個(gè)Http請求,火車采集器也一樣,從指定的地址獲取內(nèi)容的過程起始頁就是一個(gè)發(fā)送一個(gè)Http請求然后對得到的內(nèi)容進(jìn)行處理。

當(dāng)瀏覽器向web服務(wù)器發(fā)送請求時(shí),它向服務(wù)器傳遞了一個(gè)數(shù)據(jù)塊,也就是請求信息。Http請求信息由3部分組成:請求方法URI協(xié)議/版本,請求頭(Request Header)和請求正文。如GET/sample.jspHTTP/1.1 //請求行

Accept:image/gif.image/jpeg,*/* //請求頭

Accept-Language:zh-cn

Connection:Keep-Alive

Host:localhost

User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0)

Accept-Encoding:gzip,deflate

username=jinqiao&password=1234 //請求正文而客戶就可以從請求的信息中得到有用的數(shù)據(jù)。

14.網(wǎng)頁編碼

是在網(wǎng)頁中指定其特定的字符編碼格式的庫,一般在網(wǎng)頁中會(huì)有如下一句:

,這樣的字句指示此網(wǎng)頁的字符集編碼是GB2312.火車采集器對一般的網(wǎng)頁可以做到自動(dòng)識(shí)別,也羅列出了大部分的網(wǎng)頁編碼格式,直接在采集器中手工選擇指定相應(yīng)的編碼格式。

15.代理

是指網(wǎng)絡(luò)中的代理服務(wù)器,可以代理網(wǎng)絡(luò)用戶去取得所需要的網(wǎng)絡(luò)信息。代理的功能有可以突破自身ip的訪問限制訪問國外站點(diǎn),訪問一些單位或團(tuán)體內(nèi)部資源,突破電信的ip封鎖和隱藏真實(shí)的ip等。在新版采集器中增加了Http二級(jí)代理服務(wù)器并支持Http代理,socket4代理和socket5代理分類。用戶可以設(shè)置一個(gè)或多個(gè)二級(jí)代理服務(wù)器,或者在代理服務(wù)器中可以設(shè)置更多的一級(jí)代理,從而達(dá)到單個(gè)任務(wù)使用多個(gè)代理的效果。

16.任務(wù)網(wǎng)址庫

采集器在文件夾DataLocoySpiderPageUrl下,該站點(diǎn)下的每一個(gè)任務(wù)都會(huì)生成一個(gè)獨(dú)立或公用的網(wǎng)址庫用來對比網(wǎng)址重復(fù)之用。

17.Xpath

是一門在XML文檔中查找信息的語言,可以通過路徑表達(dá)式在XML文檔中進(jìn)行導(dǎo)航。在新版采集器中增加了使用Xpath方式采集內(nèi)容和獲取內(nèi)容頁網(wǎng)址的功能。在標(biāo)簽編輯中,選擇Xpath方式就可以得到這種所見即所得的網(wǎng)頁數(shù)據(jù),更方便于對html不熟悉的用戶使用。

正文提取

對網(wǎng)頁源代碼進(jìn)行分析,設(shè)置遇到某種格式時(shí)數(shù)據(jù)進(jìn)行輸出的過程。在采集器的標(biāo)簽編輯中,選擇數(shù)據(jù)提取方式為正文提取,則可以用程序?qū)ξ恼碌臉?biāo)題,內(nèi)容,時(shí)間進(jìn)行自動(dòng)提取。該功能適用于準(zhǔn)確識(shí)別大多數(shù)文章類的網(wǎng)頁。也特別適合對采集器不是很熟悉的用戶操作。

18.OCR

OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指對文本資料進(jìn)行掃描,然后對圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。新版采集器中集成了OCR自動(dòng)識(shí)別模塊的功能,用戶在標(biāo)簽編輯數(shù)據(jù)處理中,使最終數(shù)據(jù)為圖片地址,然后添加OCR程序?qū)⒆詣?dòng)調(diào)用OCR圖片進(jìn)行下載識(shí)別并識(shí)別顯示為最終的文字結(jié)果。

19.發(fā)布接口

發(fā)布接口就是一個(gè)小的頁面程序通常和WEB發(fā)布模塊配合使用。WEB在線發(fā)布(使用WEB發(fā)布模塊)是將采集的數(shù)據(jù)以POST方式發(fā)送到網(wǎng)站頁面程序中由網(wǎng)站程序處理數(shù)據(jù)。而發(fā)布接口就是為了滿足特定需求而寫的一個(gè)網(wǎng)站的頁面程序(如:PHP頁面,ASP頁面等)。然后采集器通過WEB在線發(fā)布將數(shù)據(jù)發(fā)送到這個(gè)接口文件由這個(gè)接口文件處理數(shù)據(jù)。接口文件通常放在服務(wù)器網(wǎng)站某個(gè)目錄下。簡單的說就是采集器將采集的數(shù)據(jù)發(fā)送到接口文件中,接口文件得到數(shù)據(jù)后去處理數(shù)據(jù)。使用發(fā)布接口用戶可以更加靈活自由的處理采集器發(fā)送的數(shù)據(jù)。

20.插件

火車采集器里的插件分為PHP插件和.NET插件兩種。標(biāo)準(zhǔn)版以上支持PHP插件和.NET插件。插件可以讓用戶通過自己寫PHP程序或者.NET程序放到采集器中對采集的數(shù)據(jù)進(jìn)行處理。采集數(shù)據(jù)時(shí)可以使用及處理的插件接口詳見:todo。

21.發(fā)布數(shù)據(jù)

發(fā)布數(shù)據(jù)就是將采集到的數(shù)據(jù)發(fā)布到指定的目的地,火車采集器支持四種發(fā)布方式。

方式一:Web在線發(fā)布到網(wǎng)站

方式二:保存為本地文件

方式三:導(dǎo)入到自定義數(shù)據(jù)庫

采集器學(xué)習(xí)建議

火車采集器  幫助文檔

火車頭數(shù)據(jù)采集平臺(tái)中最重要的擴(kuò)展程序是火車采集器,我們所說的采集器學(xué)習(xí)即火車采集器的使用?;疖嚥杉魇且粋€(gè)非常專業(yè)的數(shù)據(jù)抓取和數(shù)據(jù)處理軟件,對軟件使用者有較高的技術(shù)要求,使用者要有基本的HTML基礎(chǔ),能看得懂網(wǎng)頁源碼,網(wǎng)頁結(jié)構(gòu)。 同時(shí)如果用到web發(fā)布或數(shù)據(jù)庫發(fā)布,則對自己文章系統(tǒng)及數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)要非常了解。如果您相關(guān)基礎(chǔ)薄弱,則需要花時(shí)間學(xué)習(xí)相關(guān)知識(shí)并多看使用手冊,才可以 掌握程序的使用.

當(dāng)然對HTML和數(shù)據(jù)庫不是很了解,是不是就不可以使用火車采集器了呢?也不完全是,我們程序在做了許多工作以幫助使用者更快的上手,程序做了許多 演示教材,您可以研究一下,參照并仿照制作自己的規(guī)則,再加以練習(xí),基本也可以使用。如果您對HTML和數(shù)據(jù)庫有更深層次的需求,可以來火車采集器技術(shù)支 持論壇 (http://bbs.locoy.com)尋求技術(shù)支持,論壇里有很多朋友都是很樂于幫助你的.同時(shí),我們也提供相關(guān)的服務(wù),您可以從我們這里得到你 網(wǎng)站或系統(tǒng)的完美的采集方案。

學(xué)習(xí)采集器時(shí),如有以下相關(guān)知識(shí),將會(huì)對程序的使用起到促進(jìn)作用

1.  html基礎(chǔ) 了解網(wǎng)頁的基本知識(shí),幫助分析網(wǎng)頁結(jié)構(gòu) http://www.w3school.com.cn/html/index.asp

2.  正則表達(dá)式的使用  http://www.regexlab.com/zh/regref.htm

3.  Http協(xié)議的相關(guān)知識(shí) Http請求抓包的方法 http://www.fiddler2.com/fiddler2/

4.  Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo數(shù)據(jù)庫的使用

5.  代理服務(wù)器,F(xiàn)TP服務(wù)器相關(guān)知識(shí)

6.  常見的SQL語句

7.  插件需要PHP或C#編程功底的支持

8.  Apache或IIS服務(wù)器架設(shè),網(wǎng)站的安裝

火車采集器采集原理,流程介紹

火車采集器  幫助文檔

什么是數(shù)據(jù)采集?我們可以這樣理解,我們打開一個(gè)網(wǎng)站,看到有一篇文章很不錯(cuò),于是我們就將文章的標(biāo)題和內(nèi)容復(fù)制了一下,將這篇文章轉(zhuǎn)到我們的網(wǎng)站上。我們的這個(gè)過程,就可以稱作一個(gè)采集,將別人網(wǎng)站上對自己有用的信息轉(zhuǎn)到自己網(wǎng)站上。

采集器正是這樣做這樣的工作,不過整個(gè)過程是由軟件完成的。我們可以這樣理解,我們復(fù)制文章的標(biāo)題和內(nèi)容,是我們可以知道什么地方是內(nèi)容,什么地方是標(biāo)題,但是軟件是不知道的,所以我們要告訴軟件,要怎么采,這就是寫規(guī)則的過程。我們復(fù)制完了,打開我們網(wǎng)站,比如論壇發(fā)帖的地方,然后粘帖發(fā)表,對軟件來說,就是模仿我們發(fā)表帖子的過程,去發(fā)表文章,怎么發(fā)布,這就是數(shù)據(jù)發(fā)布了。

火車采集器就是一款用來采集數(shù)據(jù)的軟件,它是目前網(wǎng)絡(luò)上最強(qiáng)大的采集器。它幾乎可以采到你所見到的任何網(wǎng)頁內(nèi)容。

火車采集器數(shù)據(jù)抓取原理:

火車采集器如何去抓取數(shù)據(jù),取決于您的規(guī)則。您要獲取一個(gè)欄目的網(wǎng)頁里的所有內(nèi)容,需要先將這個(gè)網(wǎng)頁的網(wǎng)址采下來,這就是采網(wǎng)址。程序按您的規(guī)則抓取列表頁面,從中分析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁里的內(nèi)容。再根據(jù)您的采集規(guī)則,對下載到的網(wǎng)頁分析,將標(biāo)題內(nèi)容等信息分離開來并保存下來。如果您選擇了下載圖片等網(wǎng)絡(luò)資源,程序會(huì)對采集到的數(shù)據(jù)進(jìn)行分析,找出圖片,資源等的下載地址并下載到本地。

火車采集器數(shù)據(jù)發(fā)布原理:

在我們將數(shù)據(jù)采集下來后數(shù)據(jù)默認(rèn)是保存在本地的,我們可以使用以下幾種方式對數(shù)據(jù)進(jìn)行處理。

1、不做任何處理。因?yàn)閿?shù)據(jù)本身是保存在數(shù)據(jù)庫的(access、db3、mysql、sqlserver),您如果只是查看數(shù)據(jù),直接用相關(guān)軟件打開查看即可。

2、Web發(fā)布到網(wǎng)站。程序會(huì)模仿瀏覽器向您的網(wǎng)站發(fā)送數(shù)據(jù),可以實(shí)現(xiàn)您手工發(fā)布的效果。

3、直接入數(shù)據(jù)庫。您只需寫幾個(gè)SQL語句,程序會(huì)將數(shù)據(jù)按您的SQL語句導(dǎo)入到數(shù)據(jù)庫中。

4、保存為本地文件。程序會(huì)讀取數(shù)據(jù)庫里的數(shù)據(jù),按一定格式保存為本地sql或是文本文件。

火車采集器工作流程:

火車采集器采集數(shù)據(jù)是分成兩個(gè)步驟的,一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。這兩個(gè)過程是可以分開的。

1、采集數(shù)據(jù),這個(gè)包括采集網(wǎng)址,采集內(nèi)容。這個(gè)過程是獲得數(shù)據(jù)的過程。我們做規(guī)則,在采的過程中也算是對內(nèi)容做了處理。

2、發(fā)布內(nèi)容就是將數(shù)據(jù)發(fā)布到自己的論壇,CMS的過程,也是實(shí)現(xiàn)數(shù)據(jù)為已有的過程。可以用WEB在線發(fā)布,數(shù)據(jù)庫入庫或存為本地文件。

具體的使用其實(shí)是很靈活的,可以根據(jù)實(shí)際來決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置。總之,具體過程由您而定,火車采集器的強(qiáng)大功能之一也就是體現(xiàn)在靈活中。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
天天看天天干| 91丨九色丨国产在线| 成人亚洲精品久久久久软件| 久久国产香蕉视频| 国模大尺度视频一区二区| 色噜噜成人av在线| 一区二区三区中文字幕在线观看| 美女视频在线免费| 国产aa精品| 天天色 色综合| 91蝌蚪porny| 欧美高清激情brazzers| 国产娇喘精品一区二区三区图片| 欧美一区激情视频在线观看| 大型av综合网站| 亚洲自拍偷拍麻豆| 在线播放一区二区精品产| 伊人成色综合网| 菠萝蜜视频在线观看一区| 欧美日韩亚洲精品一区二区三区| 欧美日韩国内| 国产在线视频你懂的| 可以在线看黄的网站| 内射一区二区三区| 国产日韩精品视频一区| 99re免费99re在线视频手机版| 91大神在线网站| 色综合亚洲图丝熟| 亚洲成aⅴ人片久久青草影院| 中文字幕亚洲一区二区av在线| 欧美色图在线观看| 久久久久久久久久婷婷| 国产精品综合不卡av| 91精品久久久久久久久久另类| 狠狠色狠狠色综合日日tαg| 日韩精品一卡| 欧美一级淫片a免费视频| 日韩一卡二卡在线观看| 国产香蕉在线观看| 免费电影日韩网站| 日本一区二区动态图| www.cao超碰| 成人国产精品一区| 国产精品每日更新在线播放网址| 中文字幕你懂的| 亚洲h精品动漫在线观看| 日本久久亚洲电影| 极品一区美女高清| 你懂的免费视频| 久久久一区二区三区| 亚洲AV无码精品国产| 亚洲国产精品久久人人爱蜜臀| 欧美图片自拍偷拍| 日韩制服丝袜av| 成视频在线免费观看| rebdb初裸写真在线观看| 日韩免费高清在线观看| 国产xxxxx| 另类高清dbsm日本tvav| 久久久99精品免费观看不卡| 91大神福利视频在线| 可以免费在线观看的av| 国产精品三级网站| 日韩精品免费一区二区在线观看| 精精国产xxxx视频在线野外| 美女视频黄a视频全免费观看| 欧美高清在线精品一区| 日韩av一区二区三区| av一区二区三区免费观看| 日本影音先锋电影| 在线中文字幕视频观看| 国产精品不卡在线观看| www.日韩av.com| 中文字幕免费看| 日本欧美加勒比视频| 亚洲国产精品suv| 五月婷婷伊人网| 国产乱码精品一区二区三区中文| 蜜桃久久精品一区二区| 欧美久久久久久久久久久| 高清视频在线观看一区| 中文国产一区| 国内精品麻豆美女在线播放视频| 天天好比中文综合网| 在线免费a视频| 福利一区二区三区视频在线观看| 日本欧美精品久久久| 婷婷五月综合缴情在线视频| 久久av超碰| www.午夜色大片| 久久久久久久久综合影视网| 人妻一区二区三区四区| 免费观看的成年网址| 日本精品久久| 91在线观看视频| 午夜一区二区视频| 九九热视频免费在线观看| 四虎免费在线视频| 91九色国产社区在线观看| 大伊香蕉精品视频在线| 国产精品羞羞答答xxdd| 中文字幕乱在线伦视频中文字幕乱码在线| 久久美女视频| 国产专区在线视频| 午夜视频在线瓜伦| 欧美国产日韩视频| 免费av在线网址| 国产精品视频久久| 欧美经典一区| 国产精选一区二区三区不卡催乳| 久久精品女人天堂| 国产精品免费一区二区| 亚洲国产日韩欧美在线图片| 亚洲天堂av中文字幕| 久久久久久久久99精品| 亚洲一区二区精品久久av| 国产精品中文欧美| 国产麻豆剧果冻传媒视频杜鹃| 日本一区二区三区四区五区六区| 精品国产18久久久久久洗澡| 亚洲成人黄色网址| 欧美日韩一区二区区别是什么| 虎白女粉嫩尤物福利视频| 欧美日韩高清一区二区不卡| 久久久久综合一区二区三区| 亚洲欧美日韩动漫| 欧美性生交xxxxx| 色黄网站在线观看| 国产亚洲一区二区三区四区| www欧美激情| 久久精品国产v日韩v亚洲| 日韩欧美一区二区三区视频| 91在线国产福利| 婷婷久久国产对白刺激五月99| 韩国v欧美v亚洲v日本v| 国产sm调教视频| jizz视频播放器| 天天操天天干天天玩| 欧美日韩爱爱| 久久久久久国产精品免费无遮挡| 欧美日韩精品一二三区| 免费在线观看羞羞视频| 久久欧美在线电影| 欧美日韩国产另类一区| 成人在线观看免费高清| 黄网址在线永久免费观看| 亚洲国产欧美91| 日韩欧美国产一区二区三区| 顶级嫩模精品视频在线看| 日韩在线视频免费观看高清中文| 日本一级片免费| 精品久久久影院| 一级片免费在线观看视频| 欧美精品久久久久久久久| 亚洲精品无码久久久久久久| www一区二区www免费| 日本裸体美女视频| 精品国产免费人成电影在线观...| 3d动漫精品啪啪1区2区免费| xxxxx中文字幕| 99视频一区| 在线观看国产精品视频| 国产精品2024| 国产亚洲一二三区| 精品成人免费观看| 日本午夜精品理论片a级app发布| 成年女人免费视频| 日韩一区二区视频| 亚洲三级av| 乱亲女秽乱长久久久| 欧美剧情片在线观看| ,一级淫片a看免费| 日本一级一片免费视频| 国产一区二区三区在线播放免费观看| 26uuu色噜噜精品一区二区| 自拍视频一区| 中文字幕1区2区3区| 素人fc2av清纯18岁| 操她视频网站| 欧美丰满嫩嫩电影| 成人福利一区二区| 久久综合影视| 午夜在线网站| 99riav视频一区二区| 肥女人的一级毛片| 国产精品免费免费| 欧美一区二粉嫩精品国产一线天| 欧美**室bdsm视频| 中国美女黄色一级片| 日韩av在线播放网址| 国产精品久在线观看| www.91av视频.com| 老熟妇仑乱视频一区二区| 99精品国产99久久久久久白柏| 成人软件网18免费视频| 欧美寡妇偷汉性猛交| 亚洲老司机网| 国产一区欧美一区| 黄色无遮挡网站| 女生裸体视频网站免费观看| 亚洲午夜久久久久中文字幕久| 色哟哟精品观看| 国产精品91久久久久久| 91在线一区二区三区| 国产免费毛卡片| 日韩色级片先锋影音| 日韩av女优在线观看| 日本高清视色| 国产精品久久久久久久久免费桃花| 国模私拍视频在线观看| 手机看片福利日韩| 欧美精品18videosex性欧美| 精品人妻一区二区三区含羞草| 亚洲午夜国产一区99re久久| 国产95亚洲| 九九热视频免费| 99香蕉久久| 欧美激情a∨在线视频播放| 伊人精品在线视频| 国产福利小视频在线| 久久米奇亚洲| 国产日韩电影| 免费国产一区| 亚洲精品ww久久久久久p站| 国产乱国产乱老熟300| www久久99| 成人久久一区二区三区| 日日摸天天爽天天爽视频| 亚洲成人第一| 精品久久一区二区| 免费男女羞羞的视频网站中文字幕妖精视频| 99视频免费观看蜜桃视频| 精品久久久久久电影| 最新版天堂资源在线| 亚洲一区二区三区四区电影| 九色网友自拍视频手机在线| 亚洲综合在线网| 在线xxxx| 欧美绝品在线观看成人午夜影视| 国产精品欧美经典| 高清欧美性猛交xxxx黑人猛| 国产亚洲a∨片在线观看| 日韩av高清在线播放| 色综合久久网女同蕾丝边| 久久久999精品视频| 欧美一级免费播放| 亚洲一区欧美在线| 国产后入清纯学生妹| 国产欧美日韩综合精品一区二区| 亚洲一区 二区 三区| 日韩情爱电影在线观看| 免费在线观看一区二区三区| 精品国产白色丝袜高跟鞋| 亚洲免费不卡视频| 欧美日本视频在线| 5g影院天天爽成人免费下载| 色狠狠桃花综合| 一级片免费在线观看| 天天干天天色天天| 天堂av网在线| 中文字幕人妻精品一区| 久久精品视频免费看| 在线一级视频| 九色中文视频| 青草青草久热精品视频在线观看| 洋洋成人永久网站入口| 欧美精品在欧美一区二区| 日韩欧美在线综合网| 欧美色999| 亚洲人a成www在线影院| 亚洲精品激情视频| 在线成人免费视频| 国产精品日韩久久久| 国产不卡视频一区| 亚洲欧美日韩第一区| 日本午夜在线| 96精品久久久久中文字幕| 综合激情国产一区| 成人国产精品免费观看| 91精产国品一二三| 97精品久久人人爽人人爽| 日本一二三四高清不卡| 国产超碰在线观看| 国产剧情一区二区在线观看| 天天久久综合| 欧州一区二区| 四虎永久免费| 欧美黑人xxxⅹ高潮交| 欧美精品色一区二区三区| 成人h版在线观看| 校园春色综合| 亚洲女女做受ⅹxx高潮| jizz18欧美| 91国在线高清视频| 粉嫩av一区二区三区免费野| 国内一卡2卡三卡四卡在线| 麻豆中文一区二区| 国产永久免费观看| 国产91色在线观看| 免费在线播放电影| 亚洲精品精品一区| 亚洲第一狼人社区| 久热中文字幕在线| av免费播放网站| 456成人影院在线观看| 亚洲电影免费| 中文字幕九色91在线| 欧美激情亚洲自拍| 久热成人在线视频| 人妻丰满熟妇aⅴ无码| 亚洲一二三区不卡| 亚洲精品mp4| 国产超级va在线视频| 91精品国产综合久久香蕉麻豆| 国产成人三级在线观看| 日韩免费视频播放| 成av人电影在线观看| 亚洲码在线观看| 久久伊人资源站| 麻豆91小视频| 全彩无遮拦全彩口工漫画全彩| 天天干天天摸天天操| 亚洲综合久久久久| 麻豆传媒在线免费| 日韩激情在线视频| 在线天堂新版最新版在线8| 欧美国产在线电影| 性欧美1819|