說明
在處理文本的時候,第一步往往是將字符串進行分詞,得到一個個關鍵詞。蘋果從很早就開始支持中文分詞了,而且我們幾乎人人每天都會用到,回想一下,在使用手機時,長按一段文字,往往會選中按住位置的一個詞語,這里就是一個分詞的絕佳用例,而iOS自帶的分詞效果非常棒,大家可以自己平常注意觀察一下,基本對中文也有很好的效果。而這個功能也開放了API供開發者調用,我試用了一下,很好用!
效果如下:
實現
其實蘋果給出了完整的API,想要全面了解的可以直接看文檔:CFStringTokenizer Reference
這里說說簡單的一個實現:
// 要分詞的字符串 NSString *string = @"俠士隱鋒,莽夫露刃"; self.keywords = [[NSMutableArray alloc] init]; CFStringTokenizerRef ref = CFStringTokenizerCreate(NULL, (__bridge CFStringRef)string, CFRangeMake(0, string.length), kCFStringTokenizerUnitWord, NULL);// 創建分詞器 CFRange range;// 當前分詞的位置 // 獲取第一個分詞的范圍 CFStringTokenizerAdvanceToNextToken(ref); range = CFStringTokenizerGetCurrentTokenRange(ref); // 循環遍歷獲取所有分詞并記錄到數組中 NSString *keyWord; while (range.length>0) { keyWord = [string substringWithRange:NSMakeRange(range.location, range.length)]; [self.keywords addObject:keyWord]; CFStringTokenizerAdvanceToNextToken(ref); range = CFStringTokenizerGetCurrentTokenRange(ref); }