亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

使用lucene 3.0.0 索引和檢索中文文件

2019-11-17 03:52:06
字體:
來源:轉載
供稿:網友
一. 我本來的程序

    其實我本來的程序挺簡單, 完全修改自Demo里面的SearchFiles和IndexFiles. 唯一不同的是引用了SmartCN的分詞器.

    我把修改那一點的代碼貼出來.

    IndexhChinese.java:

Date start = new Date();try {  IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR),           new SmartChineseAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);  indexDocs(writer, docDir);  System.out.PRintln("Indexing to directory '" +INDEX_DIR+ "'...");  System.out.println("Optimizing...");  //writer.optimize();  writer.close();   Date end = new Date();  System.out.println(end.getTime() - start.getTime() + " total milliseconds"); }
    SearchChinese.java

Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_CURRENT); BufferedReader in = null;if (queries != null) {  in = new BufferedReader(new FileReader(queries));} else {  in = new BufferedReader(new InputStreamReader(System.in, "GBK"));}
     在這里, 我制定了輸入的查詢是采用GBK編碼的.

     然后我充滿信心的運行后......發現無法檢索出中文, 里面的英文檢索是正常的.



二. 發現問題.

     于是我就郁悶了, 由于對于java與lucene都是太熟悉, 而且用的3.0.0版外面的討論又不是太多, 就瞎折騰了一會兒, 發現我如果把文件的格式另存為ansi就可以檢索中文了(以前是utf-8的), 看來是文件編碼的問題, 摸索了一下, 在indexChinese.java中發現了如下的代碼:

static void indexDocs(IndexWriter writer, File file)  throws IOException {  // do not try to index files that cannot be read  if (file.canRead()) {    if (file.isDirectory()) {      String[] files = file.list();      // an IO error could occur      if (files != null) {        for (int i = 0; i < files.length; i++) {          indexDocs(writer, new File(file, files[i]));        }      }    } else {      System.out.println("adding " + file);      try {        writer.addDocument(FileDocument.Document(file));      }      // at least on windows, some temporary files raise this exception with an "access denied" message      // checking if the file can be read doesn't help      catch (FileNotFoundException fnfe) {        ;      }    }  }
     重點在于這一句:

try {  writer.addDocument(FileDocument.Document(file));}
    讀取文件的代碼應該就在這里面, 跟蹤進去:

public static Document Document(File f)     throws java.io.FileNotFoundException, UnsupportedEncodingException {  Document doc = new Document();   doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));   doc.add(new Field("modified",      DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE),      Field.Store.YES, Field.Index.NOT_ANALYZED));    doc.add(new Field("contents", FileReader(f)));   // return the document  return doc;} private FileDocument() {}}

     這是Lucene的一個內部類, 作用就是從一個文本文件中獲取內容, 生成的Document默認有3個域: path, modified, content, 而content就是文件的文本內容了. 看來是FileReader(f), 這個函數出了問題了, 根本沒有制定采用什么編碼進行讀取啊, 于是把這兒簡單的修改了一下.

FileInputStream fis=new FileInputStream(f);//   按照 UTF-8 編碼方式將字節流轉化為字符流InputStreamReader isr=new InputStreamReader(fis,"UNICODE");//   從字符流中獲取文本并進行緩沖BufferedReader br=new BufferedReader(isr); doc.add(new Field("contents", br));
     至于那個"Unicode"可以修改為支持的所有編碼, 當我修改為"utf-8"后就可以正常使用了.


三. 一些猜測:

     對于Lucene索引文件的時候, 編碼是沒有關系的, 只要正確指定了, 那么輸出的文件都是可以被正常檢索到的, 也就是說, 不同的編碼文件索引后的結果一樣(求證)


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产精品丝袜一区二区三区| 日本三级韩国三级久久| 久久久精品国产一区二区| 亚洲电影天堂av| 欧美亚洲国产成人精品| 色伦专区97中文字幕| 国产精品99免视看9| 久久影院在线观看| 精品亚洲男同gayvideo网站| 欧美精品videossex性护士| 久久久精品免费视频| 国产偷国产偷亚洲清高网站| 久久久久久九九九| 亚洲国产91精品在线观看| 日韩国产精品视频| 98精品国产高清在线xxxx天堂| 国产一区二区三区欧美| 欧美精品videos| 欧美猛少妇色xxxxx| 亚洲深夜福利视频| 色哟哟网站入口亚洲精品| 欧美午夜精品在线| 国产精品1234| 亚洲色图35p| 神马国产精品影院av| 欧美在线视频在线播放完整版免费观看| 色一情一乱一区二区| 欧美激情视频播放| 性色av一区二区三区红粉影视| 18久久久久久| 这里精品视频免费| 中文字幕日韩欧美在线| 性欧美长视频免费观看不卡| 国产噜噜噜噜噜久久久久久久久| 精品亚洲一区二区三区在线播放| 国产99久久久欧美黑人| 国产综合色香蕉精品| 久久影院免费观看| 一区二区三区四区视频| 伊是香蕉大人久久| 日韩在线观看av| 成人福利免费观看| 91久久国产精品| 亚洲日韩中文字幕| 亚洲欧美日韩国产成人| 国产精品视频一区国模私拍| 欧美日韩一区二区三区在线免费观看| 国语自产在线不卡| 亚洲国产美女精品久久久久∴| 国产精品久久久久久搜索| 亚洲成人黄色网址| 久久久国产精品x99av| 久久久精品视频在线观看| 亚洲精品视频网上网址在线观看| 欧美精品免费播放| 麻豆乱码国产一区二区三区| 欧美性视频网站| 色播久久人人爽人人爽人人片视av| 久久视频精品在线| 欧美激情一二三| 亚洲一级一级97网| 欧美在线性视频| 国外日韩电影在线观看| 国产成人精品在线| 成人福利网站在线观看11| 欧美成人一区二区三区电影| 日韩在线观看免费网站| 色悠悠久久久久| 欧美精品一本久久男人的天堂| 2023亚洲男人天堂| 亚洲成人激情小说| 岛国av午夜精品| 黑人巨大精品欧美一区二区三区| 中文字幕一区二区三区电影| 日韩av免费在线播放| 日韩免费在线电影| 国产精品第1页| 中文字幕精品视频| 最近2019年好看中文字幕视频| 欧美精品在线免费播放| 日韩美女福利视频| 国产精品黄页免费高清在线观看| 久久久久久久久国产| 一本一本久久a久久精品综合小说| 98视频在线噜噜噜国产| 国产精品一区电影| 成人黄在线观看| 成人在线一区二区| yw.139尤物在线精品视频| 欧美成人精品在线| 欧美理论片在线观看| 精品视频在线导航| 国产精品久久久久999| 亚洲a级在线播放观看| 日韩精品中文在线观看| 8090理伦午夜在线电影| 久久久久久12| 日韩欧美在线观看| 欧美性少妇18aaaa视频| 亚洲一级黄色av| 久久国产精品亚洲| 成人国产亚洲精品a区天堂华泰| 午夜精品久久久久久久男人的天堂| 日韩欧美综合在线视频| 国产精品69精品一区二区三区| 久久久久久久久久久免费精品| 国产精品揄拍一区二区| 国产精品爱啪在线线免费观看| 亚洲肉体裸体xxxx137| 久久精品91久久香蕉加勒比| 国产综合在线观看视频| 久久99视频精品| 中文字幕视频在线免费欧美日韩综合在线看| 国产精品视频1区| 夜色77av精品影院| 成人国产亚洲精品a区天堂华泰| 国产精品电影一区| 日韩av片永久免费网站| 亚洲人a成www在线影院| 久久精品99无色码中文字幕| 欧美日本中文字幕| 91探花福利精品国产自产在线| 欧美视频在线观看 亚洲欧| 日韩中文理论片| 2018日韩中文字幕| 欧美疯狂做受xxxx高潮| 亚洲高清不卡av| 欧美成人国产va精品日本一级| 久久夜色精品国产欧美乱| 国产午夜精品一区理论片飘花| 精品亚洲国产视频| 高清欧美性猛交xxxx黑人猛交| 高潮白浆女日韩av免费看| 最近2019年好看中文字幕视频| 国产精品久久久久久av福利| 国产精品免费久久久| 日本久久亚洲电影| 国产成人激情视频| 爽爽爽爽爽爽爽成人免费观看| 亚洲国产成人精品久久| 日本不卡高字幕在线2019| 欧美另类暴力丝袜| 亚洲国产精品小视频| 成人免费在线视频网址| 欧美成人午夜视频| 国产精品久久激情| 欧美性理论片在线观看片免费| 亚洲一区二区三区香蕉| 欧美老少配视频| 超碰97人人做人人爱少妇| 一区二区欧美亚洲| 国产精品久久久久久久9999| 国产精品女人久久久久久| 国产精品一区二区三区久久| 欧美成人精品激情在线观看| 日韩欧美国产激情| 午夜欧美不卡精品aaaaa| 欧美精品福利在线| 97热在线精品视频在线观看| 日韩av在线天堂网| 97久久精品人搡人人玩| 国产精品美女久久久久久免费| 日韩av片免费在线观看| 国产成人一区二区在线|