亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > C++ > 正文

關于在C程序中處理UTF-8文本的方法詳解

2020-05-23 13:37:30
字體:
來源:轉載
供稿:網友

UTF-8

互聯網的普及, 強烈要求出現一種統一的編碼方式. UTF-8就是在互聯網上使用最廣的一種unicode的實現方式. 其他實現方式還包括UTF-16和UTF-32, 不過在互聯網上基本不用.

重復一遍, 這里的關系是, UTF-8是Unicode的實現方式之一.

UTF-8最大的一個特點, 就是它是一種變長的編碼方式. 它可以使用1~6個字節表示一個符號, 根據不同的符號而變化字節長度.

UTF-8的編碼規則

UTF-8的編碼規則很簡單, 只有兩條:

1) 對于單字節的符號, 字節的第一位設為0, 后面7位為這個符號的unicode碼. 因此對于英語字母, UTF-8編碼和ASCII碼是相同的.

2) 對于n字節的符號(n>1), 第一個字節的前n位都設為1, 第n+1位設為0, 后面字節的前兩位一律設為10. 剩下的沒有提及的二進制位, 全部為這個符號的unicode碼.

如果你對 UTF-8 編碼不是非常了解,就不要試圖在 C 程序中徒手處理 UTF-8 文本。如果你對 UTF-8 非常了解,就更沒必要這樣做。找一個提供了 UTF-8 文本處理功能并且可以跨平臺運行的 C 庫來做這件事吧!

GLib 就是這樣的庫。

從問題出發

下面的這段文本是 UTF-8 編碼的(我之所以如此確定,是因為我用的是 Linux 系統,系統默認的文本編碼是 UTF-8):

我的 C81 每天都在口袋里   @

我需要在 C 程序中讀入這些文本。在讀到 '@' 字符時,我需要判定 '@' 左側與之處于同一行的文本是否都是空白字符。

簡單起見,我忽略了文件讀取的過程,將上述文本表示為 C 字符串:

gchar *demo_text = "我的 C81 每天都在口袋里/n" "   @";

注:在 GLib 中,gchar 就是 char,即 typedef char gchar;

下文,當我說『demo_text 字符串』時,指的是以 demo_text 指針的值為基地址的 strlen(demo_text) + 1 個字節的內存空間,這是 C 語言字符串的基本常識。

UTF-8 文本長度與字符定位

為了模擬程序讀到 '@' 字符這一時刻,我需要用一個 char * 類型的指針對 demo_text 字符串中的 '@' 字符進行定位。

'@' 字符在 demo_text 的末尾。我需要一個偏移距離,而這個偏移距離就是 demo_text 字串在 UTF-8 編碼層次上的長度,通過這個偏移距離,我可以從 demo_text 字符串的基地址跳到 '@' 字符的基地址。

GLib 提供了 g_utf8_strlen 函數計算 UTF-8 字符串長度,因此我可以得到從 demo_text 字串的基地址到 '@' 字符基地址的偏移距離:

glong offset = g_utf8_strlen(demo_text, -1);

結果是 38,恰好是 demo_text 字符串在 UTF-8 編碼層次上的長度(不含字串結尾的 null 字符,亦即 '/0' 字符)。

g_utf8_strlen 的原型如下:

glong g_utf8_strlen(const gchar *p, gssize max);

注:glong 即 long,而 gssize 即 signed long。

g_utf8_strlen 第二個參數 max 的設定規則如下:

  • 如果它是負數,那么就假定字符串是以 null 結尾的(這是 C 字符串常識),然后統計 UTF-8 字符的個數。
  • 如果它為 0,就是不檢測字符串長度……這個值純粹是出來打醬油的。
  • 如果它為正數,表示的是字節數。g_utf8_strlen 會按照字節數從字符串中截取字節,然后再統計所截取的字節對應的 UTF-8 字符的個數。

有了偏移距離,就可以在 demo_text 中定位 '@' 字符了,即:

gchar *tail = g_utf8_offset_to_pointer(demo_text, offset - 1);

此時 tail 的值便是 '@' 字符的基地址。

在 UTF-8 文本中游走

現在已經獲得了 '@' 的位置,接下來就是從這個位置開始向左(也就是逆序)遍歷 demo_text 字符串的其它字符。GLib 為此提供了 g_utf8_prev_char 函數:

gchar * g_utf8_prev_char(const gchar *str, const gchar *p);

借助 g_utf8_prev_char 函數可以從 str 中獲得 p 之前的一個 UTF-8 字符的基地址(p 是當前 UTF-8 字符的基地址)。如果 p 與 str 相同,即 p 已經指向了字符串的基地址,那么 g_utf8_find_prev_char 會返回 NULL。

對于本文要解決的問題而言,利用這個函數,可以寫出從 demo_text 中的 '@' 字符所在位置開始逆序遍歷 '@' 之前的所有 UTF-8 字符的過程:

glong offset = g_utf8_strlen(demo_text, -1);gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);while (1) {  viewer = g_utf8_prev_char(viewer);  if (viewer != demo_text) {    /* do somthing here */  } else {    break;  }}

GLib 還提供了一個 g_utf8_next_char,它可以返回當前位置的下一個 UTF-8 字符的基地址。

提取 UTF-8 字符

雖然借助 g_utf8_prev_char 與 g_utf8_next_char 可以讓指針在 UTF-8 文本中走動,但是只能將一個指針定位到某個 UTF-8 字符的基地址,如果我們想得到這個 UTF-8 字符,就不是那么容易了。

例如

viewer = g_utf8_prev_char(viewer);

此時,雖然可以將 viewer 向前移動一個 UTF-8 字符寬度的距離,到達了一個新的 UTF-8 字符的基地址,但是如果我想將這個新的 UTF-8 字符打印出來,像下面這樣做肯定是不行的:

g_print("%s", viewer);

注:g_print 函數與 C 標準庫中的 printf 函數功能基本等價,只不過 g_print 可以借助 g_set_print_handler 函數實現輸出的『重定向』。

因為 g_print 要通過 viewer 打印單個 UTF-8 字符,前提是這個 UTF-8 字符之后需要有個 '/0',這樣就是將一個 UTF-8 字符作為一個普通的 C 字符串打印了出來。這個 UTF-8 字符后面不可能有 '/0',除非它是 demo_text 字符串中的最后一個字符。

要解決這個問題,只能是將 viewer 所指向的 UTF-8 字符相應的字節數據提取出來,放到一個字符數組或在堆中為其創建存儲空間,然后再打印這個字符數組或堆空間中的數據。例如:

gchar *new_viewer = g_utf8_next_char(viewer);sizt_t n = new_viewer - viewer;gchar *utf8_char = malloc(n + 1);memcpy(utf8_char, viewer, n);utf8_char[n] = '/0';g_print("%s", utf8_char);free(utf8_char);

這樣顯然太繁瑣了。不過,這意味著我們應該寫一個函數專門做這件事。這個函數可取名為 get_utf8_char,定義如下:

static gchar * get_utf8_char(const gchar *base) {  gchar *new_base = g_utf8_next_char(base);  gsize n = new_base - base;  gchar *utf8_char = g_memdup(base, (n + 1));  utf8_char[n] = '/0';  return utf8_char;}

借助這個函數,就可以實現從 demo_text 的 '@' 所在位置開始,逆序打印 '@' 之前的所有 UTF-8 字符:

glong offset = g_utf8_strlen(demo_text, -1);gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);while (1) {  gchar outbuf[7] = {'/0'};  viewer = g_utf8_prev_char(viewer);  if (viewer != demo_text) {    gchar *utf8_char = get_utf8_char(viewer);    g_print("%s", utf8_char);    g_free(utf8_char);  } else {    break;  }}g_print("/n");

注:g_memdup 等價于 C 標準庫中的 malloc + memcpy,而 g_free 則等價與 C 標準庫中的 free。
空白字符比較

現在,假設給定一個 UTF-8 字符 x,怎么判斷它與某個 UTF-8 字符相等?

不要忘記,所謂的一個 UTF-8 字符,本質上只不過是 char * 類型的指針引用的一段內存空間?;谶@一事實,利用 C 標準庫提供的 strcmp 函數即可實現 UTF-8 字符的比較。

下面,我定義了函數 is_space,用它判斷一個 UTF-8 字符是否為空白字符。

static gboolean is_space(const gchar *s) {  gboolean ret = FALSE;  char *space_chars_set[] = {" ", "/t", " "};  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);  for (size_t i = 0; i < n; i++) {    if (!strcmp(s, space_chars_set[i])) {      ret = TRUE;      break;    }  }  return ret;}

注:gboolean 是 GLib 定義的布爾類型,其值要么是 TRUE,要么是 FALSE。

在 is_space 函數中,我只是判斷了三種空白字符類型——英文空格、中文全角空格以及制表符。

雖然回車符與換行符也是空白字符,但是為了解決這篇文章開始時提出的問題,我需要單獨為換行符定義一個判斷函數:

static gboolean is_line_break(const gchar *s) {  return (!strcmp(s, "/n") ? TRUE : FALSE);}

解決問題

現在萬事俱備,只欠東風,我們應該著手解決問題了。如果讀到此處已經忘記了問題是什么,那么請回顧第一節。

盡管下面這段代碼看上去挺丑,但是它能夠解決問題。

gboolean is_right_at_sign = TRUE;glong offset = g_utf8_strlen(demo_text, -1);gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);while (viewer != demo_text) {  viewer = g_utf8_prev_char(viewer);  gchar *utf8_char = get_utf8_char(viewer);  if (!is_space(utf8_char)) {    if (!is_line_break(utf8_char)) {      is_right_at_sign = FALSE;      g_free(utf8_char);      break;    } else {      g_free(utf8_char);      break;    }  }  g_free(utf8_char);}if (is_right_at_sign) g_print("Right @ !/n");

對上述代碼略做簡化,可得:

gboolean is_right_at_sign = TRUE;glong offset = g_utf8_strlen(demo_text, -1);gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);while (viewer != demo_text) {  viewer = g_utf8_prev_char(viewer);  gchar *utf8_char = get_utf8_char(viewer);  if (!is_space(utf8_char)) {    if (!is_line_break(utf8_char)) is_right_at_sign = FALSE;    g_free(utf8_char);    break;  }  g_free(utf8_char);}if (is_right_at_sign) g_print("Right @ !/n");

其實,如果將 UTF-8 字符的提取與內存釋放過程置入 is_space 與 is_line_break 函數,即:

static gboolean is_space(const gchar *c) {  gboolean ret = FALSE;  gchar *utf8_char = get_utf8_char(c);  char *space_chars_set[] = {" ", "/t", " "};  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);  for (size_t i = 0; i < n; i++) {    if (!strcmp(utf8_char, space_chars_set[i])) {      ret = TRUE;      break;    }  }  g_free(utf8_char);  return ret;}static gboolean is_line_break(const gchar *c) {  gboolean ret = FALSE;  gchar *utf8_char = get_utf8_char(c);  if (!strcmp(utf8_char, "/n")) ret = TRUE;  g_free(utf8_char);  return ret;}

可以得到進一步的簡化結果:

gboolean is_right_at_sign = TRUE;glong offset = g_utf8_strlen(demo_text, -1);gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);while (viewer != demo_text) {  viewer = g_utf8_prev_char(viewer);  if (!is_space(viewer)) {    if (!is_line_break(viewer)) is_right_at_sign = FALSE;    break;  }}if (is_right_at_sign) g_print("Right @ !/n");

附:完整的代碼

#include <string.h>#include <glib.h>gchar *demo_text =  "我的 C81 每天都在口袋里/n"  "      @";static gchar * get_utf8_char(const gchar *base) {  gchar *new_base = g_utf8_next_char(base);  gsize n = new_base - base;  gchar *utf8_char = g_memdup(base, (n + 1));  utf8_char[n] = '/0';  return utf8_char;}static gboolean is_space(const gchar *c) {  gboolean ret = FALSE;  gchar *utf8_char = get_utf8_char(c);  char *space_chars_set[] = {" ", "/t", " "};  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);  for (size_t i = 0; i < n; i++) {    if (!strcmp(utf8_char, space_chars_set[i])) {      ret = TRUE;      break;    }  }  g_free(utf8_char);  return ret;}static gboolean is_line_break(const gchar *c) {  gboolean ret = FALSE;  gchar *utf8_char = get_utf8_char(c);  if (!strcmp(utf8_char, "/n")) ret = TRUE;  g_free(utf8_char);  return ret;}int main(void) {  gboolean is_right_at_sign = TRUE;  glong offset = g_utf8_strlen(demo_text, -1);  gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);  while (viewer != demo_text) {    viewer = g_utf8_prev_char(viewer);    if (!is_space(viewer)) {      if (!is_line_break(viewer)) is_right_at_sign = FALSE;      break;    }  }  if (is_right_at_sign) g_print("Right @ !/n");  return 0;}

若是在 Bash 中使用 gcc 編譯這份代碼,可使用以下命令:

$ gcc `pkg-config --cflags --libs glib-2.0` utf8-demo.c -o utf8-demo

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對VEVB武林網的支持。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲天堂网站在线观看视频| 亚洲男人天天操| 欧美日韩另类视频| 亚洲一区国产精品| 亚洲成人黄色网址| 欧美一级大片视频| 中文字幕久热精品在线视频| 国产日韩欧美在线视频观看| 午夜精品一区二区三区视频免费看| 日韩电影免费观看在线观看| 久久激情视频免费观看| 亚洲网站视频福利| 亚洲一区国产精品| 欧美日韩人人澡狠狠躁视频| 久久国产一区二区三区| 国产精品黄色影片导航在线观看| 国产精品∨欧美精品v日韩精品| 亚洲成年人影院在线| 国内精品久久久久久中文字幕| 欧美与欧洲交xxxx免费观看| 亚洲一区二区久久| 黑人狂躁日本妞一区二区三区| 91精品国产精品| 91免费的视频在线播放| 中文字幕久热精品视频在线| 国产成人在线视频| 日韩免费av一区二区| 欧美在线xxx| 亚洲国产欧美在线成人app| 亚洲乱码国产乱码精品精天堂| 欧美激情视频网| 都市激情亚洲色图| 欧美精品在线播放| 欧美精品videosex牲欧美| 51色欧美片视频在线观看| 久久中文精品视频| 国产精品久久久91| 亚洲精品日韩丝袜精品| 国产精品国语对白| 欧美精品日韩三级| 欧美亚洲国产另类| 91精品美女在线| 亚洲成人精品视频| 精品一区二区三区四区| 欧美精品在线免费播放| 日本中文字幕成人| 亚洲欧美中文字幕| 国产精品久久久久免费a∨大胸| 欧美日韩一区二区三区在线免费观看| 国产精品美女在线| 色偷偷av亚洲男人的天堂| 久久6免费高清热精品| 中文字幕亚洲第一| 懂色aⅴ精品一区二区三区蜜月| 中文一区二区视频| 一区二区在线视频播放| 久久亚洲精品中文字幕冲田杏梨| 福利视频导航一区| 日韩中文字幕精品| 久久久久久久久久婷婷| 91大神在线播放精品| 国产一区二区三区在线观看视频| 日韩精品中文字幕在线播放| 色哟哟网站入口亚洲精品| 欧美巨乳美女视频| 亚洲男女性事视频| 九色成人免费视频| 亚洲一二在线观看| 国产成人精品电影久久久| 91探花福利精品国产自产在线| 国产精品久久久精品| 中文字幕亚洲情99在线| 精品国产电影一区| 日韩电影大全免费观看2023年上| 日本精品免费观看| 国产精品第一页在线| 欧美精品情趣视频| 国产主播欧美精品| 欧洲美女7788成人免费视频| 狠狠躁夜夜躁久久躁别揉| 在线亚洲午夜片av大片| 中文日韩在线视频| 亚洲毛片一区二区| 成人两性免费视频| 日韩精品电影网| 中文字幕日韩综合av| 国产视频精品一区二区三区| 日韩欧美综合在线视频| 亚洲二区中文字幕| 日韩福利伦理影院免费| 精品国产一区二区三区久久狼5月| 九九久久久久99精品| 久久成人精品一区二区三区| 日韩精品视频中文在线观看| 伊人久久综合97精品| 最近2019年好看中文字幕视频| 日韩久久精品成人| 国产精品扒开腿做爽爽爽视频| 日韩美女av在线免费观看| 尤物yw午夜国产精品视频| 亚洲人成在线一二| 日韩hd视频在线观看| 欧美成人精品不卡视频在线观看| 国产一区二区激情| 日韩中文在线中文网三级| 国产这里只有精品| 91精品国产高清自在线| 亚洲欧美一区二区三区四区| 国产精品男女猛烈高潮激情| 日韩高清电影免费观看完整| 91在线视频九色| 69视频在线播放| 欧美成人午夜免费视在线看片| 2019中文字幕在线| 色播久久人人爽人人爽人人片视av| 福利一区福利二区微拍刺激| 青草青草久热精品视频在线网站| 午夜精品久久久久久久久久久久| 欧美一区二区大胆人体摄影专业网站| 性色av一区二区三区红粉影视| 在线观看91久久久久久| 亚洲男人第一av网站| 中文精品99久久国产香蕉| 亚洲精品一区av在线播放| 亚洲最新av在线| 欧美极品美女电影一区| 欧美在线视频播放| 日韩视频中文字幕| 成人免费视频在线观看超级碰| 色偷偷av一区二区三区乱| 亚洲天堂日韩电影| 欧美视频精品一区| 性色av一区二区三区| 热草久综合在线| 日韩免费看的电影电视剧大全| 亚洲电影免费观看| 国产成+人+综合+亚洲欧美丁香花| 久久欧美在线电影| 欧美黄网免费在线观看| 国产成+人+综合+亚洲欧洲| 日韩电影大片中文字幕| 国产精品福利在线观看网址| 中文字幕精品国产| 国产精品爽爽爽| 久久久久久久成人| 俺也去精品视频在线观看| 久久久久亚洲精品成人网小说| 亚洲精品久久久一区二区三区| 久久综合88中文色鬼| 91久久夜色精品国产网站| 欧美一区二区色| 久久99视频免费| 97视频在线观看视频免费视频| 久久免费精品视频| 韩国一区二区电影| 久久久久久久久国产精品| 91国偷自产一区二区三区的观看方式| 精品视频一区在线视频| 欧美韩国理论所午夜片917电影| 成人精品视频99在线观看免费| 欧美极品第一页| 国产精品视频白浆免费视频| 欧美成人精品在线观看| 69视频在线免费观看|