亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

Java繁體中文處理完全攻略

2019-11-18 14:09:53
字體:
來源:轉載
供稿:網友

  蔡學鏞

許多人用 java 處理到中文資料時,常會出現亂碼。關于 Java 和中文兼容性的問題,實在讓許多程序員為此傷透腦筋,相關的問題每隔幾天就會出現在網絡上。為了舒緩您緊蹙的眉頭,我非凡寫了這系列文章,解說 Java 牽涉到文字時的內部處理方式,供讀者參考。讀完本系列文章之后,不求甚解者可以治標,充分理解者可以治本。本文貴在原理解說,別光是囫圇吞棗。

快速解決之道

假如你目前正遭碰到 Java 和中文不兼容的問題,請你注重下面這幾點,說不定問題能馬上迎刃而解:

1. 檢查操作系統設定:先檢查你的操作系統,確定國籍語言資料是「Traditional Chinese(Taiwan)」。國籍語言資料的設定會影響 Java 編譯器與JRE的判定。我之前就是因為國籍資料設定不正確,出了一堆 Java 和中文不兼容的怪事。

2. 更新 Java 環境版本:改用最新版的 JDK,新版本的 JDK 說不定已經解決你原有的問題。請注重:某些 Java IDE 所用的編譯器和 JRE 是不兼容于中文的(我遇過這樣的情形),你最好能把 Java IDE 的 JDK 指到新版的 JDK。另外,假如數據庫取回的資料是亂碼,換別套或者更新 JDBC 驅動程序試試看。

假如還是無法解決,請具體閱讀下面各小節的內容,仔細推敲你的錯誤所在。

Unicode、UTF-16、UTF-8

Java 內部處理字符使用的字序方式是 Unicode,這是一種通行全球的編碼方式。Unicode 因為必須將中、韓、日、英、法、阿拉伯……等許多國家所使用的文字都納入,目前已經包含了六萬多個字符,所以 Unicode 使用了 16 個位來為字符編碼。因為 Unicode 使用了 16 位編碼,所以每個字符都用 16 位來儲存或傳輸是很自然的事,這種儲存或傳輸的格式稱為 UTF-16(是不是很像戰斗機的名字)。假如你使用到的字符都是西方字符,那么你一定不會想用 UTF-16 的格式,因為體積比 8 位的 Latin-1(一種擴充 ASCII 的編碼)多了一倍。所以 Unicode 另有一種儲存或傳輸的格式,叫做 UTF-8。UTF-8 的格式在編碼英文時,只需要 8 位,但是中文則是 24 位,所以中文字出現比例高的地方還是使用 UTF-16 比較節省空間。Java 的 Class File(也就是 bytecode)中有一字段叫做常數區(Constant Pool),一律使用 UTF-8 為字符編碼。

關于 Unicode 的編碼,請查閱「The Unicode Standard, Version 3.0」一書(Addison-Wesley 出版);關于 UTF-8 編碼,請查閱「Java I/O」一書的 399 頁(O´Reilly 出版)。關于 Java Class File 的格式與 Constant Pool,請查閱「Java Virtual Machine」一書(O´Reilly出版)。

Unicode 與繁體中文編碼的互轉

雖然 Java 內部完整地使用 Unicode,但是你所使用的操作系統可不見得。以繁體中文版的 Windows 98 來說,預設的編碼方式是 MS950,這是一種兼容于 Big 5的編碼方式。字符串數據從 Windows 一送進 JRE,JRE 的轉碼系統馬上先把字符串編碼由 MS950 轉成 Unicode,才能進行處理。字符串資料由 JRE 一送出給 Windows,JRE 的轉碼系統馬上先將其由 Unicode 轉成 MS950,操作系統才能處理。

想知道你的 JDK 或 JRE 會用什么樣的編碼方式來和操作系統溝通,請執行下面的 Java 程序:

public class ShowNativeEncoding {

public static void main(String[] args) {

String enc = System.get
System.out.println(enc);

}

}

假如執行結果不是下面的字符串之一,那么你的操作系統國籍語言設定可能就有問題了:

? Big5:這是繁體中文 de facto 標準。

? CNS11643:臺灣的官方標準繁體中文編碼。

? Cp937:繁體中文加上 6204 個使用者自定的字符

? Cp948:繁體中文版 IBM OS/2 用的編碼方式。

? Cp964:繁體中文版 IBM AIX 用的編碼方式。

? EUC_TW:臺灣的加強版 Unicode。

? ISO2022CN:編碼中文的一套標準。

? ISO2022CN_CNS:編碼中文的一套標準,繁體版,襲自 CNS11643。

? MS950 或 Cp950:ASCII + Big5,用于臺灣和香港的繁體中文 MS Windows操作系統。

? Unicode:有次序記號的 Unicode。次序記號占用兩個 byte,假如其值是0xFEFF,表示使用 big-endian(由大到小)的次序為 Unicode 編碼;假如其值是 0xFFFF,表示使用 little-endian(由小到大)的次序為 Unicode 編碼。

? UnicodeBig:使用 big-endian(由大到小)的次序為 Unicode 編碼。

? UnicodeLittle:使用 little-endian(由小到大)的次序為 Unicode 編碼。

? UTF8:使用 UTF-8 為 Unicode 編碼。

關于 Big 5 編碼,請查閱「CJKV Information Processing」一書的附錄 H(O´Reilly出版)。

編譯時的注重事項

編譯的時候,假如你不說明原始文件編碼方式的話, javac 編譯器在讀進此原始程序文件,開始編譯之前,會先去詢問操作系統檔案預設的編碼方式為何。以繁體中文 Windows 98 來說,javac 會先詢問 Windows 98,得知檔案是用 MS950 的方式編碼。然后就可以將檔案由 MS950 轉成 Unicode 編碼方式,開始進行編譯。

通常在編譯階段,會造成的錯誤有下列幾種可能:

1. 假如操作系統的國籍資料設定錯誤,會造成 javac 編譯器取得的編碼信息是錯的。

2. 較差勁的編譯器可能沒有主動詢問操作系統的編碼方式,而是采用編譯器預設的編碼方式。

3. 假如原始程序不是用編譯當時操作系統預設的編碼方式存盤的,也會造成錯誤。比方說,原始程序文件是臺灣程序員寫的,在繁體中文版的 Windows上以 MS950 編碼存盤,再經由網絡傳送到泰國,在泰文版的 Windows 上編譯(泰文版 Windows 預設的檔案編碼方式是 MS874)。

這種因為原始程序文件編碼方式和編譯器無法匹配所造成的問題,輕則編譯成功但執行時文字出現亂碼或出現 Error/Exception,重則無法成功編譯。這時候,你需要主動透過「-encoding」選項來指定原始程序的編碼方式,編譯器會以你指定的編碼為主,不會再去詢問操作系統。下面的例子,我們告訴編譯器「TaiwanClass.java」是以繁體中文版 Windows 的「MS950」編碼的:

javac ?encoding MS950 TaiwanClass.java

假如你手上只有某 class 文件,沒有原始程序文件,而且你確定其 constant pool 的UTF-8 字段編碼錯誤,你有兩種方式可以用來修正編碼:

1. 先反編譯,取得原始程序,再修改,編譯。

2. 或者直接利用 bytecode 編輯軟件,直接修改 class 文件。


I/O 轉碼
Java 現行的 IO 一律使用 Stream 的方式,相關的類別都放在 java.io 中。輸出 binary 的資料使用 OutputStream 的子類別,輸入 binary 的資料使用 InputStream 的子類別,輸出文字的資料使用 Writer 的子類別,輸入文字的資料使用 Reader 的子類別。

你可能會覺得很希奇:「有必要用不同的方式來處理文字和 binary 嗎?文字資料不也是 binary 的一種?」沒錯,其實他們非常類似,最大的差異在于,InputStream/OutputStream 會原封不動地傳送資料,但是 Reader/Writer 會將資料當作文字對待,所以 Reader/Writer 在「必要時」會把(文字)資料轉碼。什么時候才是所謂的「必要時」呢?

Java 的 Stream(包括 Reader 和 Writer)是可以互相串接的。當 Reader 的資料來源是另一個 Reader 時,不轉碼,當 Reader 的資料來源是一個 InputStream 時,就會轉碼。當 Writer 的資料去處是另一個 Writer 時,不轉碼,當 Writer 的資料去處是一個 OutputStream 時,就會轉碼。

由什么碼轉成什么碼?這是可以指定的。因為轉碼只發生在 Reader/InputStream 的交界處與 Writer/OutputStream 的交界處,所以正是由 InputStreamReader 和 OutputStreamWriter 此二類別負責,下面兩個 constructor 的第二個參數,正是用來指定轉碼的方式。

public InputStreamReader(InputStream in, String enc)
throws UnsupportedEncodingException;
public OutputStreamWriter(OutputStream out, String enc)
throws UnsupportedEncodingException;

InputStreamReader 負責將 enc 的編碼方式轉成 Unicode(因為資料是從「外部」送過來給「內部」的),OutputStreamWriter 負責將 Unicode 的編碼方式轉成 enc(因為資料要從「內部」送給「外部」)。JRE 內部當然都一定是用 Unicode 編碼,而外部的編碼就不一定,要看當時的環境為何。你可以透過 getEncoding() 的 method,來得知 InputStreamReader 與 OutputStreamWriter 的編碼方式。

請注重:即使你沒用到 InputStreamReader 與 OutputStreamWriter,只有用到其它的 Reader 和 Writer,但是這些 Reader 和 Writer 內部也很有可能(但非絕對)是直接或間接通到 InputStreamReader 與 OutputStreamWriter。比方說:FileReader 內部其實是透過一個 InputStreamReader 的中介來將資料從 FileInputStream 取過來的,此時 InputStreamReader 的轉碼方式是采用 OS 的文字編碼(以繁體中文的 Windows 為例,就是「MS950」)轉成 Unicode。

假如你清楚地知道你要讀寫的檔案(或資料來源 / 去處)是采用某種編碼方式,你也可以主動指定編碼方式。但是,請記得抓取可能導致的 UnsupportedEncodingException,并務必處理之,不可對此例外置之不理,因為該 JRE 有可能沒有附上此種編碼表(也有可能你的編碼名稱給錯)。

檔案 I/O 轉碼
假如你是在泰文版的 Windows 上,想讀取用 MS950 編碼的繁體中文文字文件,你就必須主動指定編碼,不可以直接用 FileReader,否則無法成功讀取。方法如下:

FileInputStream fis = new FileInputStream(fileName);
InputStreamReader reader = new InputStreamReader(fis, "MS950");

然后,透過 Reader 讀出來的就會是正確的中文。

網絡 I/O 轉碼
假如你的網絡程序采用 TCP,那么你可以透過 Socket 類別所提供的 getInputStream() 和 getOutputStream() 來得到 InputStream 和 OutputStream 對象。假如你是在泰文版的 Windows 上,想讀取用 MS950 編碼的繁體中文文字 TCP 網絡串流,你可以用類似上面的技巧來轉碼。方法如下:

InputStream is = mySocket.getInputStream();
InputStreamReader reader = new InputStreamReader(is, "MS950");

假如你的網絡程序采用 UDP,你必須把中文字符串轉成(或轉自)byte 數組。請看下一節「 字符串和 byte 數組的轉碼 」。

假如你的網絡程序采用 RMI,那你完全不用為這部分的轉碼操心,字符串直接用 Unicode 在網絡上傳遞給另一個 JRE,不需要轉碼。

保持刑案現場
假如你不知道你的 I/O 資料來源或去處是用何種編碼方式,那么你最好不要用 Reader 和 Writer,而應該直接用 InputStream 和 OutputStream,因為與其被 Reader 和 Writer 胡亂編碼之后造成信息遺失或錯亂,不如保持資料的完整不變,留待以后進一步解讀。

字符串和 byte 數組的轉碼
java.lang.String 類別是 Java 字符串對象的類別,Java 字符串對象既然是活在 JRE 內部,當然就一定是用 Unicode 編碼。假如你需要將 String 對象和 byte 數組互轉,你可以使用:

String(byte[] bytes, int offset, int length, String enc);



String(byte[] bytes, String enc);

來將用 enc 編碼的 byte 數組,轉成 Unicode 的 String 對象。你也可以使用 String 對象所提供的:

byte[] getBytes(String enc)

來將 String 對象轉成 byte 數組。

另外,你也可以透過 ByteArrayInputStream 或 ByteArrayOutputStream 串接到 InputStreamReader 或 OutputStreamWriter,來達到轉碼的目的。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲激情电影中文字幕| 色av吧综合网| 国产偷国产偷亚洲清高网站| 欧美福利小视频| 在线免费看av不卡| 日韩精品在线私人| 91av视频在线免费观看| 久久综合88中文色鬼| 中文字幕少妇一区二区三区| 亚洲天堂网在线观看| 日韩性xxxx爱| 日韩av电影中文字幕| 亚洲free嫩bbb| 成人欧美一区二区三区黑人孕妇| 国产噜噜噜噜噜久久久久久久久| 亚洲aⅴ男人的天堂在线观看| 国产精品盗摄久久久| 欧美最顶级丰满的aⅴ艳星| 日韩视频精品在线| 久久香蕉国产线看观看av| 色99之美女主播在线视频| 国产精品一区av| 美女视频黄免费的亚洲男人天堂| 国产极品精品在线观看| 亚洲国产日韩欧美在线动漫| 亚洲国产精品嫩草影院久久| 欧美成人激情视频免费观看| 精品一区二区电影| 欧美色视频日本高清在线观看| 国产成人高清激情视频在线观看| 精品中文字幕在线| 亚洲少妇中文在线| 国产精品国产亚洲伊人久久| 亚洲在线免费观看| 亚洲人成电影在线观看天堂色| 欧美xxxx做受欧美.88| 欧美激情精品久久久久| 一级做a爰片久久毛片美女图片| 亚洲成年人在线| 国产精品欧美日韩一区二区| 亚洲黄一区二区| 国产成人鲁鲁免费视频a| 欧美影院成年免费版| 热草久综合在线| 国语对白做受69| 亚洲精品国精品久久99热一| 一区二区三区美女xx视频| 久久亚洲精品小早川怜子66| 午夜精品久久17c| 国产日韩欧美在线视频观看| 在线播放精品一区二区三区| 精品一区二区三区电影| www.久久撸.com| 高清亚洲成在人网站天堂| 日韩女在线观看| 欧美中文字幕精品| 国产精品a久久久久久| 久久久久久这里只有精品| 日韩亚洲欧美中文在线| 久久影视电视剧凤归四时歌| 亚洲在线免费视频| 亚洲一区美女视频在线观看免费| 亚洲欧美日韩精品久久| 国产999视频| 国产精品羞羞答答| 国产精品主播视频| 欧美性做爰毛片| 亚洲国产精品久久久久久| 国产精品久久久久9999| 91精品国产高清| 青草热久免费精品视频| 欧美精品在线免费| 亚洲日韩欧美视频| 免费不卡欧美自拍视频| 欧美日韩国产精品一区二区不卡中文| 欧美日韩在线免费| 欧美性高潮床叫视频| 一区二区三区四区精品| 午夜美女久久久久爽久久| 日韩亚洲欧美中文高清在线| 日韩精品小视频| 韩日精品中文字幕| 精品无人国产偷自产在线| 日韩一区二区三区xxxx| 欧美理论电影在线播放| 97视频在线观看免费| 久久久免费精品| 国产福利视频一区二区| 亚洲第一区第二区| 91夜夜揉人人捏人人添红杏| 亚洲色图日韩av| 亚洲精品大尺度| 91麻豆桃色免费看| 国内外成人免费激情在线视频网站| 日本国产一区二区三区| 91经典在线视频| 亚洲精品日韩久久久| 成人免费视频在线观看超级碰| 亚洲精品一区在线观看香蕉| 亚洲缚视频在线观看| 69av成年福利视频| 欧美极品少妇与黑人| 91中文字幕一区| 国产成+人+综合+亚洲欧美丁香花| 色中色综合影院手机版在线观看| 日韩欧美成人网| 日本一区二三区好的精华液| 日韩网站免费观看| 日韩欧美在线免费| 国产午夜精品全部视频播放| 欧美精品国产精品日韩精品| 日韩视频免费看| 国产精品jizz在线观看麻豆| 国产视频丨精品|在线观看| 国产小视频国产精品| 国产一区二区色| 欧美日韩综合视频| 日本久久精品视频| 日韩中文字幕免费| 欧美成人精品一区二区三区| 久久久久久亚洲| 国产一区二区三区欧美| 亚洲女同性videos| 欧美激情久久久久久| 国产精品视频永久免费播放| 亚洲视频综合网| 欧美片一区二区三区| 成人妇女免费播放久久久| 91香蕉国产在线观看| zzjj国产精品一区二区| 欧美在线性视频| 亚洲精品第一页| 成人精品福利视频| 亚洲精品美女在线观看| 九九热精品视频国产| 国产一区二区三区久久精品| 欧美激情精品久久久久久大尺度| 精品国产91久久久久久老师| 国产一区二区三区毛片| 中国日韩欧美久久久久久久久| 国产亚洲福利一区| 成人中文字幕在线观看| 欧美一乱一性一交一视频| 日韩精品中文在线观看| 国产成人av网| 久久久成人av| 欧美裸体xxxx极品少妇软件| 久久精品最新地址| 日韩av高清不卡| 国产精品69精品一区二区三区| 亚洲精品乱码久久久久久金桔影视| 国产一区二中文字幕在线看| 亚洲的天堂在线中文字幕| 久久夜精品va视频免费观看| 久久综合久中文字幕青草| 日韩av第一页| 2020久久国产精品| 隔壁老王国产在线精品| 欧美大尺度激情区在线播放| 亚洲人成网在线播放| 亚洲成色999久久网站| 91久久在线播放| 精品人伦一区二区三区蜜桃免费| 欧美黑人巨大精品一区二区|