近年來,隨著國民經濟信息化的不斷發展以及Internet的普及,中文信息處理技術的應用日益廣泛。由于中文文本的按句連寫的,詞間無間隙,因而中文信息處理的首要問題是詞的切割問題,智能自動分詞已成為中文信息處理的一個重要課題。
靈玖軟件智能漢語分詞系統是自然語言處理的基礎與關鍵。公司在多年研究工作積累的基礎上,研制出了NLPIR分詞系統中的智能功能,主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。
智能漢語分詞系統主要特點:
(1)自動索引:可以用機器抽取或賦予索引詞,索引詞是指與文本信息主題相符的或密切相關的詞語,也是文本信息的關鍵詞和主題詞。所以中文文本自動索引中離不開詞這個基本單元。
(2)自動分類:可以按照計算機系統一定的實體或對象進行分類,包括建立分類體系及自動更新,主要是文檔聚類和關鍵詞聚類等領域。自動聚類由計算機系統按照被考察對象的內部或外部特征,根據一定的要求(如類別的數量限制,同類對象的親近程度等等),將相近、相似或相同特征的對象聚合在一起的過程。
(3)信息智能檢索:可以對信息按照一定的方式組織、存儲,智能的從海量的大數據中找到滿足用戶信息需求的知識,尤其指對非結構化或半結構化文本的檢索(注:在這一點上,信息檢索與基于數據庫的檢索不同。在數據庫領域,數據之間有特定關系并按照這種關系進行結構化存儲。檢索時可按照這種邏輯關系直接找到需要的信息),其主要目的是從海量文檔集中高效檢索出與用戶需求相關的文檔,其研究涉及海量信息采集、表示、組織、內容分析與知識挖掘、索引、訪問、表現等方面。
(4)信息智能抽取:可以從文檔中所尋到所需的信息應用,可以抽取到更精確的信息表達。并且對中英文混合詞、新詞識別能夠自動識別進行分詞功能。同時,可以單條導入用戶詞典,也可以批量導入用戶詞典。如可以定“舉報信 敏感點”,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標記。
智能漢語分詞系統可以對漢語語言進行詞性的自動標注,它能夠真正理解中文,自動根據語言環境將詞語諸如“建設”標注為“名詞”或“動詞”,一級詞性標注準確率接近99%,具備準確率高、速度快、可適應性強等優勢。
新聞熱點
疑難解答