亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 課堂 > 基礎知識 > 正文

Unicode詳細分析解釋

2020-10-28 20:10:21
字體:
來源:轉載
供稿:網友
可以任意轉載,但轉載時必須標明原作者charlee、原始鏈接http://tech.idv2.com/2008/02/21/unicode-intro/以及本聲明

  • 基本知識
    • 字節和字符的區別
    • Big Endian和Little Endian
  • UCS-2和UCS-4
  • UTF-16和UTF-32
    • UTF-16
    • UTF-32
  • UTF-8

基本知識

介紹Unicode之前,首先要講解一些基礎知識。雖然跟Unicode沒有直接的關系,但想弄明白Unicode,沒這些還真不行。

字節和字符的區別

咦,字節和字符能有什么區別?。坎欢际且粯拥膯??完全正確,但只是在古老的DOS時代。當Unicode出現后,字節和字符就不一樣了。

字節(octet)是一個八位的存儲單元,取值范圍一定是0~255。而字符(character,或者word)為語言意義上的符號,范圍就不一定了。例如在UCS-2中定義的字符范圍為0~65535,它的一個字符占用兩個字節。

Big Endian和Little Endian

上面提到了一個字符可能占用多個字節,那么這多個字節在計算機中如何存儲呢?比如字符0xabcd,它的存儲格式到底是 AB CD,還是 CD AB 呢?

實際上兩者都有可能,并分別有不同的名字。如果存儲為 AB CD,則稱為Big Endian;如果存儲為 CD AB,則稱為Little Endian。

具體來說,以下這種存儲格式為Big Endian,因為值(0xabcd)的高位(0xab)存儲在前面:

地址
0x00000000AB
0x00000001CD

相反,以下這種存儲格式為Little Endian:

地址
0x00000000CD
0x00000001AB

UCS-2和UCS-4

Unicode是為整合全世界的所有語言文字而誕生的。任何文字在Unicode中都對應一個值,這個值稱為代碼點(code point)。代碼點的值通常寫成 U+ABCD 的格式。而文字和代碼點之間的對應關系就是UCS-2(Universal Character Set coded in 2 octets)。顧名思義,UCS-2是用兩個字節來表示代碼點,其取值范圍為 U+0000~U+FFFF。

為了能表示更多的文字,人們又提出了UCS-4,即用四個字節表示代碼點。它的范圍為 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一樣的。

要注意,UCS-2和UCS-4只規定了代碼點和文字之間的對應關系,并沒有規定代碼點在計算機中如何存儲。規定存儲方式的稱為UTF(Unicode Transformation Format),其中應用較多的就是UTF-16和UTF-8了。

UTF-16和UTF-32

UTF-16

UTF-16由RFC2781規定,它使用兩個字節來表示一個代碼點。

不難猜到,UTF-16是完全對應于UCS-2的,即把UCS-2規定的代碼點通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過在文件開頭以名為BOM(Byte Order Mark)的字符來表明文件是Big Endian還是Little Endian。BOM為U+FEFF這個字符。

其實BOM是個小聰明的想法。由于UCS-2沒有定義U+FFFE,因此只要出現 FF FE 或者 FE FF 這樣的字節序列,就可以認為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

舉個例子?!癆BC”這三個字符用各種方式編碼后的結果如下:

UTF-16BE00 41 00 42 00 43
UTF-16LE41 00 42 00 43 00
UTF-16(Big Endian)FE FF 00 41 00 42 00 43
UTF-16(Little Endian)FF FE 41 00 42 00 43 00
UTF-16(不帶BOM)00 41 00 42 00 43

Windows平臺下默認的Unicode編碼為Little Endian的UTF-16(即上述的 FF FE 41 00 42 00 43 00)。你可以打開記事本,寫上ABC,然后保存,再用二進制編輯器看看它的編碼結果。

notepad-encode.png

另外,UTF-16還能表示一部分的UCS-4代碼點――U+10000~U+10FFFF。表示算法比較復雜,簡單說明如下:

  1. 從代碼點U中減去0x10000,得到U'。這樣U+10000~U+10FFFF就變成了 0x00000~0xFFFFF。
  2. 用20位二進制數表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
  3. 將前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。

例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

但是由于這種算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無定義的字符。

UTF-32

UTF-32用四個字節表示代碼點,這樣就可以完全表示UCS-4的所有代碼點,而無需像UTF-16那樣使用復雜的算法。與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字符。僅用'ABC'舉例:

UTF-32BE00 00 00 41 00 00 00 42 00 00 00 43
UTF-32LE41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(Big Endian)00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
UTF-32(Little Endian)FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(不帶BOM)00 00 00 41 00 00 00 42 00 00 00 43

UTF-8

UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個字節,這樣在表示純ASCII文件時會有很多00字節,造成浪費。而RFC3629定義的UTF-8則解決了這個問題。

UTF-8用1~4個字節來表示代碼點。表示方式如下:

UCS-2 (UCS-4)位序列第一字節第二字節第三字節第四字節
U+0000 .. U+007F00000000-0xxxxxxx0xxxxxxx
U+0080 .. U+07FF00000xxx-xxyyyyyy110xxxxx10yyyyyy
U+0800 .. U+FFFFxxxxyyyy-yyzzzzzz1110xxxx10yyyyyy10zzzzzz
U+10000..U+1FFFFF00000000-000wwwxx-
xxxxyyyy-yyzzzzzzz
11110www10xxxxxx10yyyyyy10zzzzzz

可見,ASCII字符(U+0000~U+007F)部分完全使用一個字節,避免了存儲空間的浪費。而且UTF-8不再需要BOM字節。

另外,從上表中可以看出,單字節編碼的第一字節為[00-7F],雙字節編碼的第一字節為[C2-DF],三字節編碼的第一字節為[E0-EF]。這樣只要看到第一個字節的范圍就可以知道編碼的字節數。這樣也可以大大簡化算法。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美午夜精品久久久久久浪潮| 91成品人片a无限观看| 日韩精品在线看| 欧美日韩中文字幕在线| 亚洲在线观看视频| 精品调教chinesegay| 亚洲电影天堂av| 欧美另类在线观看| 91久久精品久久国产性色也91| 亚洲男子天堂网| 久久国产精品久久久久久久久久| 91国自产精品中文字幕亚洲| 欧美精品一区三区| 日韩av在线最新| 亚洲免费伊人电影在线观看av| 欧美色视频日本版| 日韩精品一区二区视频| 日韩免费在线播放| 国产视频观看一区| 国产精品私拍pans大尺度在线| 久久视频中文字幕| 亚洲最新av在线网站| 国产精选久久久久久| 久久久亚洲影院你懂的| 亚洲片av在线| 亚洲精品在线看| 国产欧美日韩综合精品| www.日韩欧美| 亚洲精品国产品国语在线| 国产亚洲精品美女| 精品丝袜一区二区三区| 亚洲欧美在线磁力| 久久精品国产亚洲7777| 欧美二区在线播放| 久久国产精品久久久久久久久久| 另类图片亚洲另类| 成人美女免费网站视频| 国产精品成人播放| 成人免费看黄网站| 精品精品国产国产自在线| 久久99久久99精品中文字幕| 中文欧美日本在线资源| 国产精品久久久久久久久借妻| 久久精品2019中文字幕| 欧美日韩中文字幕在线视频| 日韩欧美在线免费观看| 国产精品久久久久久久久| www.久久撸.com| 国产不卡视频在线| 日韩中文字幕视频在线观看| 亚洲国产精品成人va在线观看| 亚洲激情在线视频| 精品国产一区二区三区久久| 国产亚洲视频中文字幕视频| 亚洲国产成人久久综合| 亚洲国产成人精品电影| 国产成人在线播放| 欧美日韩一区二区在线| 高清欧美一区二区三区| 欧美日韩激情小视频| 97香蕉超级碰碰久久免费软件| 超碰91人人草人人干| 国产精品99久久久久久久久| 日本a级片电影一区二区| 欧美性猛交丰臀xxxxx网站| 中文精品99久久国产香蕉| 欧美性猛交xxxx免费看久久久| 久久躁狠狠躁夜夜爽| 久久琪琪电影院| 最近的2019中文字幕免费一页| 国内外成人免费激情在线视频| 97在线视频免费看| 欧美黑人又粗大| 色综合影院在线| 91伊人影院在线播放| 欧美精品亚州精品| 亚洲精品乱码久久久久久金桔影视| 国产性猛交xxxx免费看久久| 91国语精品自产拍在线观看性色| 在线激情影院一区| 亚洲精品xxxx| 欧美激情国产高清| 欧美性videos高清精品| 福利微拍一区二区| 国产有码在线一区二区视频| 亚洲一区二区久久久久久久| 国产成人精彩在线视频九色| 亚洲a在线播放| 日本免费在线精品| 在线成人中文字幕| 精品亚洲一区二区三区四区五区| 日韩在线一区二区三区免费视频| 亚洲第一区第二区| 亚洲精品国产精品久久清纯直播| 91九色综合久久| 精品国内自产拍在线观看| 色狠狠久久aa北条麻妃| 国产精品久久久久久久久免费| 亚洲精品美女网站| 国产精品白丝av嫩草影院| 日韩欧美精品在线观看| 97香蕉久久夜色精品国产| 日韩欧美在线视频日韩欧美在线视频| 日韩第一页在线| 国产精品美女免费看| 久久久久久久久久久免费精品| 日韩av综合网站| 尤物九九久久国产精品的特点| 久久久av亚洲男天堂| 韩国三级电影久久久久久| 欧美在线日韩在线| 亚洲一区久久久| 日韩高清有码在线| 国产成人午夜视频网址| 日韩黄色av网站| 亚洲精品久久久久久久久久久久久| 日韩福利视频在线观看| 久久天堂电影网| 欧美限制级电影在线观看| 亚洲第一天堂无码专区| 久久天天躁夜夜躁狠狠躁2022| 欧美成人激情图片网| 欧美精品久久一区二区| 操人视频在线观看欧美| 欧美成人午夜激情在线| 欧美亚洲另类在线| 中文字幕亚洲综合久久筱田步美| 久久高清视频免费| 久久久精品免费| 欧美精品中文字幕一区| 日韩在线免费视频| 国产精品av在线| 久久精品国产亚洲7777| 中文字幕在线观看日韩| 91免费欧美精品| 永久免费毛片在线播放不卡| 91精品久久久久久久久久久久久久| 久久久久久久一| 欧美成人免费观看| 久久久久久午夜| 国产一区二区三区在线观看网站| 欧美亚洲视频在线看网址| 色香阁99久久精品久久久| 久久久久久久久综合| 欧美性受xxxx白人性爽| 欧美尺度大的性做爰视频| 亚洲精品天天看| 国产精品久久久久久五月尺| 亚洲男人第一av网站| 国产精品久久久久久久久久免费| 狠狠色噜噜狠狠狠狠97| 夜夜嗨av色一区二区不卡| 欧美精品一二区| 97超视频免费观看| 欧美成人网在线| 欧美视频中文字幕在线| 色偷偷av一区二区三区乱| 久久深夜福利免费观看| 国产精品免费久久久久久| 欧美日韩国产成人在线观看| 永久免费看mv网站入口亚洲| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲精品免费一区二区三区| 久久艳片www.17c.com|