亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

Nutch 使用之鋒芒初試

2019-11-18 11:29:26
字體:
來源:轉載
供稿:網友

                                                 Nutch 使用之鋒芒初試
                           
  “工欲善其事,必先利其器。”經過前文的“細解”,我們已經完成了Nutch在Windows中的安裝。接下來就讓我們通過鋒芒初試,來親自體驗一下Nutch的強大功能吧!
   
  Nutch的爬蟲抓取網頁有兩種方式,一種方式是Intranet Crawling,針對的是企業內部網或少量網站,使用的是crawl命令;另一種方式是Whole-web crawling,針對的是整個互聯網,使用inject、generate、fetch和updatedb等更底層的命令。 本文將以使用Nutch為筆者在CSDN處的個人專欄(http://blog.csdn.net/zjzcl)文章內容建立搜索功能為例,來講述Intranet Crawling的基本使用方法(假設用戶電腦系統已安裝好JDK、Tomcat和Resin,并做過相應的環境配置)。
   
  1、設置Nutch的環境變量

  在Windows系統的環境變量設置中,增加NUTCH_java_HOME變量,并將其值設為JDK的安裝目錄。比如筆者電腦中JDK安裝于D:/j2sdk1.4.2_09,因此將NUTCH_JAVA_HOME的值設為D:/j2sdk1.4.2_09。
   
  2、Nutch抓取網站頁面前的預備工作

  (1)在Nutch的安裝目錄中建立一個名為url.txt的文本文件,文件中寫入要抓取網站的頂級網址,即要抓取的起始頁。筆者在此文件中寫入如下內容:
   
  http://blog.csdn.net/zjzcl
   
  (2)編輯conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:
   
  # accept hosts in MY.DOMAIN.NAME
  +^http://blog.csdn.net/zjzcl
   
  3、運行Crawl命令抓取網站內容
   
  雙擊電腦桌面上的Cygwin圖標,在命令行窗口中輸入:
   
  cd /cygdrive/i/nutch-0.7.1
   
  不明白此命令含義的讀者請參見前《細解》一文,然后再輸入:
   
  bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
   
  等待大約2分多鐘后,程序運行結束。讀者會發現在nutch-0.7.1目錄下被創建了一個名為crawled的文件夾,同時還生成一個名為crawl.log的日志文件。利用這一日志文件,我們可以分析可能碰到的任何錯誤。另外,在上述命令的參數中,dir指定抓取內容所存放的目錄,depth表示以要抓取網站頂級網址為起點的爬行深度,threads指定并發的線程數。
   
  4、使用Tomcat進行搜索測試
   
 ?。?)將tomcat/webapps下的ROOT文件夾名改成ROOT1;
 ?。?)將nutch-0.7.1目錄的nutch-0.7.1.war復制到tomcat/webapps下,并將其改名為ROOT;
 ?。?)打開ROOT/WEB-INF/classes下的nutch-site.xml文件,修改成如下形式:
   
  <?xml version="1.0"?>
  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

  <!-- Put site-specific PRoperty overrides in this file. -->

  <nutch-conf>
   <property>
    <name>searcher.dir</name>
    <value>I:/nutch-0.7.1/crawled</value>
   </property>
  </nutch-conf>
  
  其中的“<value>I:/nutch-0.7.1/crawled</value>”部分,讀者應根據自己的設置進行相應修改。
 ?。?)啟動Tomcat,打開瀏覽器在地址欄中輸入:http://localhost:8080,如圖1所示:

Nutch 使用之鋒芒初試(圖一)

點擊查看大圖

    
  在文本框中輸入要害字,就可以進行搜索了。不過用戶在使用時會發現,對于英文單詞的搜索一切正常,而當要搜索中文詞語時會出現亂碼。其實這個問題是Tomcat設置的問題,解決辦法是修改tomcat/conf下的server.xml文件,將其中的Connector部分改成如下形式即可:
   
  <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />
              
  現在我們可以對中文詞匯進行搜索了。如在搜索框中輸入“李開復”,點擊搜索按鈕后,會搜索到筆者之前寫的兩篇文章《從李開復換門庭開啟的縫隙中窺視——試探Google的幾招成功“秘訣”》與《從國內首例禽流感假疫苗大案說起——有感于李開復<做最好的自己>中的誠信觀》,如圖2所示:
   
Nutch 使用之鋒芒初試(圖二)
點擊查看大圖

   
  假如點擊show all hits按鈕,則會列出更多相關的搜索結果了。   
   
  5、使用Resin進行搜索測試
   
  由于筆者最近工作中經常使用Resin,因此在Tomcat上測試完畢后也想在Resin上測試一把,未曾想碰到了各種意想不到的情況。下面就將所碰到的問題以及解決方法列出,以供碰到相同問題的讀者參考。
   
 ?。?)將nutch-0.7.1目錄的nutch-0.7.1.war復制到resin-3.0.17/webapps下;
 ?。?)打開resin-3.0.17/conf下的resin.conf文件,把
   
  <!-- configures the default host, matching any host name -->
   
  下面的內容改成:
   
  <host id="" root-Directory=".">          
   <web-app id="/" document-directory="webapps/nutch-0.7.1"/>
   <stderr-log path='logs/stderr.log' rollover-period='1W'/>
   <stdout-log path='logs/stdout.log' rollover-period='1W'/>
  </host>
   
 ?。?)打開resin-3.0.17/webapps/nutch-0.7.1/WEB-INF/classes下的nutch-site.xml文件,修改成如下形式:
   
  <?xml version="1.0"?>
  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>



發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
午夜精品在线观看| 主播福利视频一区| 91日韩在线播放| 欧美精品18videos性欧| 亚洲电影成人av99爱色| 97福利一区二区| 久久99青青精品免费观看| 国产亚洲欧美另类中文| 精品一区二区亚洲| 欧美性视频网站| 亚洲大胆人体在线| 国产亚洲福利一区| 国精产品一区一区三区有限在线| 国产成人精品电影| 亚洲视频777| 亚洲福利视频专区| 国产女人精品视频| 欧美与黑人午夜性猛交久久久| 久久黄色av网站| 精品性高朝久久久久久久| 国产成人av网址| 欧美日韩一区二区在线| 亚洲男人天堂2024| 26uuu日韩精品一区二区| 亚洲国产成人一区| 日韩精品在线第一页| 欧美视频在线观看免费| 国产做受69高潮| 日本久久久久亚洲中字幕| 日本免费久久高清视频| 久久久电影免费观看完整版| 色yeye香蕉凹凸一区二区av| 日韩国产精品亚洲а∨天堂免| 成人免费看黄网站| 日韩欧美a级成人黄色| 久久人人爽国产| 亚洲视频网站在线观看| 亚洲精品视频网上网址在线观看| 亚洲综合第一页| 91精品国产91久久久久| 亚洲人午夜精品免费| 国产999精品| 丝袜亚洲欧美日韩综合| 久久久久久久999| 亚洲免费精彩视频| 亚洲精品97久久| 日韩中文在线不卡| 一个人看的www欧美| 日韩精品一区二区三区第95| 高清一区二区三区日本久| 国产成人精品电影久久久| 午夜精品理论片| 欧美激情第三页| 久久综合伊人77777蜜臀| 91精品久久久久久久久中文字幕| 奇米一区二区三区四区久久| 国产精品高清在线观看| 日韩在线观看高清| 尤物tv国产一区| 97av视频在线| 国产一区欧美二区三区| 欧美精品激情在线| 亚洲国产精品电影在线观看| 亚洲午夜色婷婷在线| 日韩av在线导航| 亚洲精品久久7777777| 97国产精品久久| 亚洲欧美另类在线观看| 日韩美女免费观看| 国产不卡在线观看| 中文字幕免费精品一区高清| 亚州成人av在线| 欧美电影在线观看网站| 国产成人精品在线| 在线性视频日韩欧美| 九色精品免费永久在线| 伊人成人开心激情综合网| 亚州国产精品久久久| 日韩精品中文字幕在线观看| 色偷偷av一区二区三区| 日韩天堂在线视频| 亚洲www在线| 91亚洲精品在线观看| 亚洲人午夜精品| 日韩三级影视基地| 久久在精品线影院精品国产| 国产成人精品视频在线| 欧美日韩国产中文精品字幕自在自线| 欧美一级高清免费播放| 欧美激情久久久久| 午夜精品在线观看| 欧日韩不卡在线视频| 久久福利视频网| 成人性生交大片免费观看嘿嘿视频| 亚洲最大在线视频| 亚洲激情视频在线观看| 久久天天躁狠狠躁夜夜躁2014| 国产精品最新在线观看| 国内成人精品视频| 国内偷自视频区视频综合| 亚洲色图国产精品| 久久久久久久999| 日韩激情视频在线| 欧美肥老太性生活视频| 国产91免费看片| 91日本在线观看| 日韩电影中文字幕在线| 91欧美精品成人综合在线观看| 日韩在线观看电影| 81精品国产乱码久久久久久| 国产自产女人91一区在线观看| 欧美性猛交xxxx| 日韩激情视频在线播放| 亚洲一区久久久| 中文字幕欧美精品日韩中文字幕| 欧美在线视频一二三| 91久久精品国产| 欧洲亚洲在线视频| 国产视频在线一区二区| 久久国产精品久久国产精品| 日韩在线观看免费高清完整版| 这里只有精品在线播放| 一区二区三区视频免费在线观看| 97香蕉久久夜色精品国产| 国产网站欧美日韩免费精品在线观看| 中文字幕精品—区二区| 久久偷看各类女兵18女厕嘘嘘| 狠狠做深爱婷婷久久综合一区| 久久夜精品va视频免费观看| 亚洲free性xxxx护士白浆| 日韩国产一区三区| 国产69久久精品成人看| 日韩中文字幕在线看| 国产精品wwwwww| 欧美综合激情网| 欧美在线播放视频| 亚洲国模精品一区| 日韩中文字在线| 国产精品福利观看| 3344国产精品免费看| 欧美大秀在线观看| 国产日韩精品电影| 精品视频在线观看日韩| 久久精品91久久久久久再现| 国产亚洲精品久久久久久牛牛| 国产国产精品人在线视| 91精品国产乱码久久久久久蜜臀| 国产成人免费av| 欧美性在线观看| 国产精品揄拍一区二区| 欧美精品在线视频观看| 国产免费一区视频观看免费| 国产精品∨欧美精品v日韩精品| 欧美最猛性xxxxx亚洲精品| 国产自摸综合网| 亚洲美女精品成人在线视频| 欧美成人全部免费| 亚洲欧美变态国产另类| 亚洲午夜av久久乱码| 久久久999精品免费| 成人免费在线网址| 久久久人成影片一区二区三区| 日韩国产精品一区| 日本精品视频网站|