前言
字符串翻轉作為算法題已經是一個不能再基礎的問題了,無非就是逆序遍歷、雙指針遍歷、遞歸,代碼也能分分鐘寫出來:
void strrev(char *str) { size_t start = 0; size_t end = start + strlen(str) - 1; while (start < end) { char ch = str[start]; str[start++] = str[end]; str[end--] = ch; }}
OK,上面的代碼放到 LeetCode 上絕對是能 AC 的,但是實際情況中能 AC 嗎?答案肯定是不能的!一個靠譜的字符串翻轉算法題放到 LeetCode 上至少是 Medium 的難度。
首先我們知道字符串有編碼規則,比如我們常用的 UTF-8,Windows 早期采用的 UTF-16(函數名有 W 后綴的 API 采用這種編碼)等等...對于英文字母等 ASCII 字符的情況,UTF-8 和 ASCII 編碼都是一個字節,所以上述的方法沒有太大問題。然而對于有中文的情況,一個中文字符在 UTF-8 中會占 3 個字節,如果單純的按字節翻轉就會出現亂碼。
那怎么解決呢?
最簡單的方法就是使用 mbstowcs 函數將 char * 類型的字符串轉換為 wchar_t 類型的寬字符串,wchar_t 這個類型在 Linux、UNIX 系統上占 4 個字節,在 Windows 上占 2 個字節。4 個字節意味著字符將用 UTF-32 來編碼,不管是漢字還是 Emoji 都能存放下來。但對于 2 個字節,也就是 UTF-16,漢字是能表示,但是 Emoji 這類位于輔助平面碼位的字符需要兩個碼元來表示,本文的方法就暫不適用了。
首先我們來看一下改進版的字符串翻轉:
static void strrev2(char *str) { setlocale(LC_CTYPE, "UTF-8"); size_t len = mbstowcs(NULL, str, 0); wchar_t *wcs = (wchar_t *) calloc(len + 1, sizeof(wchar_t)); mbstowcs(wcs, str, len + 1); size_t start = 0; size_t end = start + len - 1; while (start < end) { wchar_t wc = wcs[start]; wcs[start++] = wcs[end]; wcs[end--] = wc; } wcstombs(str, wcs, wcstombs(NULL, wcs, 0)); free(wcs);}
使用 mbstowcs 這類轉換函數首先需要設置字符串的系統編碼,不然函數無法確定你傳入的 char * 是個什么東西,本文中不管是源碼還是系統環境的 std I/O 都采用 UTF-8 編碼。
接下來我們調用一次 mbstowcs 不傳入目標地址和字符長度,這可以讓函數直接計算所需的 wchar_t 個數并返回回來以便我們申請內存。
然后就是基于 wchar_t 的一個常規字符串翻轉了,最后別忘了轉換回去,釋放內存即可。
Bonus: Cocoa 開發中的字符串翻轉
作為 iOS 開發者,當然還要考慮 OC 中的解決方法了。
方案 1:
通過 API 遍歷子串,然后前向插入到新的 NSMutableString 中。
- (NSString *)my_stringByReversing { NSMutableString *reversed = [NSMutableString stringWithCapacity:self.length]; NSRange range = NSMakeRange(0, self.length); [self enumerateSubstringsInRange:range options:NSStringEnumerationByComposedCharacterSequences usingBlock:^(NSString * _Nullable substring, NSRange substringRange, NSRange enclosingRange, BOOL * _Nonnull stop) { [reversed insertString:substring atIndex:0]; }]; return [reversed copy];}
這種方法是效果最好的,它會將 Composed Emoji(如
注:相關教程知識閱讀請移步到IOS開發頻道。
新聞熱點
疑難解答