最近恰好要用到unicode編碼的轉換,就去查了一下php的庫函數,居然沒找到一個函數可以對字符串進行Unicode的編碼和解碼!也罷,找不到的話就自己實現一下了。。。
Unicode和Utf-8編碼的區別
Unicode是一個字符集,而UTF-8是Unicode的其中一種,Unicode是定長的都為雙字節,而UTF-8是可變的,對于漢字來說Unicode占有的字節比UTF-8占用的字節少1個字節。Unicode為雙字節,而UTF-8中漢字占三個字節。
UTF-8編碼字符理論上可以最多到6個字節長,然而16位BMP(Basic Multilingual Plane)字符最多只用到3字節長。下面看一下
UTF-8編碼表:
- U-00000000 - U-0000007F: 0xxxxxxx
- U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
- U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
- U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
- U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
新聞熱點
疑難解答