Nutch在Windows中安裝之細解
近來Nutch一詞在網絡中時有所見,但囿于平常工作繁忙而未能潛心細讀與研究,只知道Nutch是Apache組織的一個開源項目,利用它用戶可以建立自己內部網的搜索引擎,也可以建立針對整個網絡的搜索引擎。好在春節假日期間,終于得空可以從容對其進行一番解讀與測試了。在使用Nutch之前,當然是需要先對其進行安裝了。用搜索引擎查找了一下相關內容,發現大部分關于Nutch如何安裝的文章都是基于linux的,而基于Windows安裝的文章雖有,但非常簡略。由于運行Nutch自帶的腳本命令需要Linux的環境,所以必須首先安裝Cygwin來模擬這種環境,而Cygwin本身的安裝與使用也不是一件簡單的事。下面,就讓筆者對Nutch在Windows系統中的安裝進行一番細解吧!
1、安裝Cygwin
首先,我們去http://www-inst.eecs.berkeley.edu/~instcd/iso/下載到Cygwin軟件的ISO文件,用Daemon軟件將其設為虛擬光驅后,雙擊其中的Setup文件,出現程序安裝的向導界面(如圖1所示)。
點擊“下一步”后,安裝向導要求選擇Cygwin的安裝方式,如圖2所示:
圖示中共有三種安裝方式:
(1)Install from Internet:從Internet上下載并安裝軟件;
(2)Download Without Installing:從Internet上下載安裝的文件,但暫時不安裝;
?。?)Install from Local Directory:從本地含有安裝文件的目錄進行安裝。
我們選擇第三項“Install from Local Directory”后,點擊“下一步”,如圖3所示:
安裝向導要求選擇Cygwin的安裝路徑,我們可以在“Root Directory”文本框中更改安裝路徑,點擊“下一步”,如圖4所示:
安裝向導要求選擇Cygwin安裝文件所在的本地存儲路徑,可以在“Local Package Directory”中設置,點擊“下一步”,如圖5所示:
安裝向導顯示出所要安裝的內容列表,用戶可以根據自己的實際需要來決定安裝哪些程序。點擊循環箭頭圖標后面的文字,可以更改安裝的方式,常用的方式有Default(表示只安裝缺省的安裝項)、Install(表示安裝全部程序,空間要求較大)、Reinstall(表示重新安裝程序)。推薦選擇“Install”方式,一步到位,以免后擾,不過用戶應保證至少有2G以上的空間可供使用。點擊“下一步”后,就開始正式的安裝了(如圖6所示)。
最后出現如圖7所示的窗口,點擊“完成”后,Cygwin安裝完畢。
至此,筆者還要對Cygwin再多說幾句。Cygwin是一個在Windows平臺上模擬運行Unix的環境,用戶可以通過它來熟悉與學習Unix系統的操作。對于Unix系統還不甚熟悉的讀者可以參閱筆者之前寫作的《Unix操作系統的入門與基礎》、《Unix的輕便“約取而實得”》系列文章,下文中對涉及使用到的Unix命令將不再給予具體解釋。
2、安裝Nutch
去http://mirror.vmmatrix.net/apache/lUCene/nutch/下載到Nutch的最新版本,將其解壓到指定目錄中,如筆者是將其解壓到I:/nutch-0.7.1中。
3、測試Nutch命令
在運行Nutch的腳本命令前,需要設置一些環境變量。Cygwin提供了一個名為cygwin.bat的文件,通過它可以自動完成必需環境變量的設置。該文件可在cygwin所在的根目錄下找到,感愛好的讀者還可通過UltraEdit等編輯器打開該文件一查究竟。其實Cygwin安裝完成之后,會在Windows系統桌面生成一圖標,如圖8所示:
此圖標就是cygwin根目錄下cygwin.bat文件的快捷方式,雙擊此圖標將打開一類似DOS窗口。由于先前筆者將Nutch的壓縮包解壓至I:/nutch-0.7.1中,故在此命令窗口中輸入命令“cd /cygdrive/i/nutch-0.7.1”,讀者可根據自己的安裝路徑進行相應的修改,然后使用命令“ls -l”可查看nutch-0.7.1中的所有子目錄及文件信息。執行命令“bin/nutch”,假如讀者能看到如圖9所示的提示,那恭喜你,Nutch在Windows系統中的安裝已經大功告成了!
至于Nutch的使用,且待后續分解:)
新聞熱點
疑難解答