Windows編程入門-字符編碼

2019-11-14 11:06:37

字體：大中小

來源：轉載

供稿：網友

Windows編程經常會遇到各種字符集，其中ANSI和Unicode是最常用的。1、ANSI（多字節字符集，又稱MBCS）

為了擴充ASCII編碼，以用于顯示本國的語言，不同的國家和地區制定了不同的標準，由此產生了 GB2312, BIG5, JIS 等各自的編碼標準。這些使用 2 個字節來代表一個字符的各種漢字延伸編碼方式，稱為 ANSI 編碼，又稱為"MBCS（Muilti-Bytes Charecter Set，多字節字符集）"。在簡體中文系統下，ANSI 編碼代表 GB2312 編碼，在日文操作系統下，ANSI 編碼代表 JIS 編碼，所以在中文 windows下要轉碼成gb2312,gbk只需要把文本保存為ANSI 編碼即可。不同 ANSI 編碼之間互不兼容，當信息在國際間交流時，無法將屬于兩種語言的文字，存儲在同一段 ANSI 編碼的文本中。一個很大的缺點是，同一個編碼值，在不同的編碼體系里代表著不同的字。這樣就容易造成混亂。導致了unicode碼的誕生。其中每個語言下的ANSI編碼，都有一套一對一的編碼轉換器，Unicode變成所有編碼轉換的中間介質。所有的編碼都有一個轉換器可以轉換到Unicode，而Unicode也可以轉換到其他所有的編碼。ANSI保存英文字符采用1個字節，保存非英文字符采用2個字節。2、Unicode
Windows系統采用的Unicode字符集指的是兩個字節表示一個字符即UTF-16。UTF-8互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示），不過在互聯網上基本不用。重復一遍，這里的關系是，UTF-8是Unicode的實現方式之一。UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。UTF-8的編碼規則很簡單，只有二條：1）對于單字節的符號，字節的第一位設為0，后面7位為這個符號的unicode碼。因此對于英語字母，UTF-8編碼和ASCII碼是相同的。2）對于n字節的符號（n>1），第一個字節的前n位都設為1，第n+1位設為0，后面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的unicode碼。下表總結了編碼規則，字母x表示可用編碼的位。Unicode符號范圍 | UTF-8編碼方式(十六進制) | （二進制）------------------------+---------------------------------------------0000 0000-0000 007F | 0xxxxxxx0000 0080-0000 07FF | 110xxxxx 10xxxxxx0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx跟據上表，解讀UTF-8編碼非常簡單。如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符占用多少個字節。下面，以漢字"嚴"為例，演示如何實現UTF-8編碼。已知"嚴"的unicode是4E25（100111000100101），根據上表，可以發現4E25處在第三行的范圍內（0000 0800-0000 FFFF），因此"嚴"的UTF-8編碼需要三個字節，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，從"嚴"的最后一個二進制位開始，依次從后向前填入格式中的x，多出的位補0。這樣就得到了，"嚴"的UTF-8編碼是"11100100 10111000 10100101"，轉換成十六進制就是E4B8A5。UTF-16UTF-16將每個字符編碼為兩個字節（或者說16位），windows之所以采用UTF-16，是因為全球各地使用的大部分語言中，每個字符很容易用一個16為值來表示。這樣一來，應用程序很容易遍歷字符串并計算出它的長度。但是16位不足以表示某些語言的所有字符，對于這些語言，UTF-16支持使用代理（surrogate）,后者是用32位（4個字節）來表示一個字符的一種方式。UTF-32UTF-32將每個字符編碼為4個字節。實例
打開"記事本"程序Notepad.exe，新建一個文本文件，內容就是一個"嚴"字，依次采用ANSI，Unicode，Unicode big endian 和 UTF-8編碼方式保存。然后，用文本編輯軟件UltraEdit中的"十六進制功能"，觀察該文件的內部編碼方式。1）ANSI：文件的編碼就是兩個字節"D1 CF"，這正是"嚴"的GB2312編碼，這也暗示GB2312是采用大頭方式存儲的。2）Unicode：編碼是四個字節"FF FE 25 4E"，其中"FF FE"表明是小頭方式存儲，真正的編碼是4E25。3）Unicode big endian：編碼是四個字節"FE FF 4E 25"，其中"FE FF"表明是大頭方式存儲。4）UTF-8：編碼是六個字節"EF BB BF E4 B8 A5"，前三個字節"EF BB BF"表示這是UTF-8編碼，后三個"E4B8A5"就是"嚴"的具體編碼，它的存儲順序與編碼順序是一致的。

上一篇：驅動框架

下一篇：Matlab編程與數據類型 -- 字符型數組