IK Analyzer默認的停用詞詞典為IKAnalyzer2012_u6/stopWord.dic,這個停用詞詞典并不完整,只有30多個英文停用詞??梢詳U展停用詞字典,新增ext_stopword.dic,文件和IKAnalyzer.cfg.xml在同一目錄,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個停用詞字典用逗號隔開,如下所示。
<entry key="ext_stopwords">stopword.dic;ext_stopword.dic</entry>IK Analyzer也支持自定義詞典,在IKAnalyzer.cfg.xml同一目錄新建ext.dic,把新的詞語按行寫入文件,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個字典用空格隔開,如下所示:
<entry key="ext_dict">ext.dic;</entry>比如,對于網絡流行語“厲害了我的哥”,默認的詞庫中沒有這個詞,在自定義字典中寫入以后才能分成一個詞。運行結果:
加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲|害了|的哥|中國|環保部門|發布|治理|北京|霧|霾|方法|在ext.dic中添加自定義詞項:
中國環保部門北京霧霾厲害了我的哥再次運行,結果如下:
加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲害了我的哥|中國環保部門|發布|治理|北京霧霾|方法|新聞熱點
疑難解答