因為一直不信java竟會有不能混排顯示多國語言的BUG,這個周末研究了一下Servlet、 jsp的多國語言顯示的問題,也就是Servlet的多字符集問題,由于我對字符集的概念還 不是很清晰所以寫出的東西未必是準確的,我是這樣理解Java中的字符集的:在運行時 ,每個字符串對象中存儲的都是編碼為UNICODE內碼的(我覺得所有的語言中都是有相應 編碼的,因為在計算機內部字符串總是用內碼來表示的,只不過一般計算機語言中的字 符串編碼時平臺相關的,而Java則采用了平臺無關的UNICODE)。 Java從一個byte流中讀取一個字符串時,將把平臺相關的byte轉變為平臺無關的Un icode字符串。在輸出時Java將把Unicode字符串轉變為平臺相關的byte流,如果某個Un icode字符在某個平臺上不存在,將會輸出一個'?'。舉個例子:在中文Windows中,Jav a讀出一個"GB2312"編碼的文件(可以是任何流)到內存中構造字符串對象,將會把GB2 312編碼的文字轉變為Unicode編碼的字符串,如果把這個字符串輸出又將會把Unicode字 符串轉化為GB2312的byte流或數組:"中文測試"----->"/u4e2d/u6587/u6d4b/u8bd5"-- --->"中文測試"。 如下例程: byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (b yte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//GBK編碼的"中文測試" java.io.ByteArrayInputStream bin = new java.io.ByteArrayInputStream(bytes); java.io.BufferedReader reader = new java.io.BufferedReader(new java.io. Inpu tStreamReader (bin,"GBK")); String msg = reader.readLine(); System.out.PRintln(msg) 這段程序放到包含"中文測試"這四個字的系統(如中文系統)中,可以正確地打印 出這些字。msg字符串中包含了正確的"中文測試"的Unicode編碼:"/u4e2d/u6587/u6d4 b/u8bd5",打印時轉換為操作系統的默認字符集,是否可以正確顯示依賴于操作系統的 字符集,只有在支持相應字符集的系統中,我們的信息才能正確的輸出,否則得到的將 會是垃圾。 話入正題,我們來看看Servlet/Jsp中的多語言問題。我們的目標是,任一國家的客 戶端通過Form向Server發送信息,Server把信息存入數據庫中,客戶端在檢索時仍然能 夠看到自己發送的正確信息。事實上,我們要保證,最終Server中的SQL語句中保存的時 包含客戶端發送文字的正確Unicode編碼;DBC與數據庫通訊時采用的編碼方式能包含客 戶端發送的文字信息,事實上,最好讓JDBC直接使用UNICODE/UTF8與數據庫通訊!這樣 就可以確保不會丟失信息;Server向客戶端發送的信息時也要采用不丟失信息的編碼方 式,也可以是Unicode/Utf8。 如果不指定Form的Enctype屬性,Form將把輸入的內容依照當前頁面的編碼字符集u rlencode之后再提交,服務器端得到是urlencoding的字符串。編碼后得到的urlencodi ng字符串是與頁面的編碼相關的,如gb2312編碼的頁面提交"中文測試",得到的是"%D6 %D0%CE%C4%B2%E2%CA%D4",每個"%"后跟的是16進制的字符串;而在UTF8編碼時得到的 卻是"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95",因為GB2312編碼中一個漢字是16位的 ,而UTF8中一個漢字卻是24位的。中日韓三國的ie4以上瀏覽器均支持UTF8編碼,這種方 案肯定包涵了這三國語言,所以我們如果讓Html頁面使用UTF8編碼那么將至少可以支持 這三國語言。 但是,如果我們html/Jsp頁面使用UTF8編碼,因為應用程序服務器可能不知道這種 情況,因為如果瀏覽器發送的信息不包含charset信息,至多Server知道讀到Accept-La nguage請求投標,我們知道僅靠這個投標是不能獲知瀏覽器所采用編碼的,所以應用程 序服務器不能正確解析提交的內容,為什么?因為Java中的所有字符串都是Unicode16位 編碼的,HttpServletRequest.request(String)的功能就是把客戶端提交的Urlencode編 碼的信息轉為Unicode字符串,有些Server只能認為客戶端的編碼和Server平臺相同,簡 單地使用URLDecoder.decode(String)方法直接解碼,如果客戶端編碼恰好和Server相同 ,那么就可以得到正確地字符串,否則,如果提交地字符串中包含了當地字符,那么將 會導致垃圾信息。 在我提出的這個解決方案里,已經指定了采用Utf8編碼,所以,可以避免這個問題 ,我們可以自己定制出decode方法: public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } 這個方法可以指定encoding,如果把它指定為UTF8就滿足了我們的需要。 比如用它 解析:"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95"就可以得到正確的漢字"中文測試"的 Unicode字符串。 現在的問題就是我們必須得到客戶端提交的Urlencode的字符串。對于method為get的fo rm提交的信息,可以用HttpServletRequest.getQueryString()方法讀到,而對于post方 法的form提交的信息,只能從ServletInputStream中讀到,事實上標準的getParameter 方法被第一次調用后,form提交的信息就被讀取出來了,而ServletInputStream是不能 重復讀出的。所以我們應在第一次使用getParameter方法前讀取并解析form提交的信息 。 我是這么做的,建立一個Servlet基類,覆蓋service方法,在調用父類的service方 法前讀取并解析form提交的內容,請看下面的源代碼: package com.hto.servlet; import javax.servlet.http.HttpServletRequest; import java.util.*; /** * Insert the type's description here. * Creation date: (2001-2-4 15:43:46) * @author: 錢衛春 */ public class UTF8ParameterReader { Hashtable pairs = new Hashtable(); /** * UTF8ParameterReader constrUCtor comment. */ public UTF8ParameterReader(HttpServletRequest request) throws java.io.IOExce ption{ super(); parse(request.getQueryString()); parse(request.getReader().readLine()); } /** * UTF8ParameterReader constructor comment. */ public UTF8ParameterReader(HttpServletRequest request,String encoding) throw s java public static String decode(String s) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,"UTF8"); } public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:30:59) * @return java.lang.String * @param name java.lang.String */ public String getParameter(String name) { if (pairs == null !pairs.containsKey(name)) return null; return (String)(((ArrayList) pairs.get(name)).get(0)); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:28:17) * @return java.util.Enumeration */ public Enumeration getParameterNames() { if (pairs == null) return null; return pairs.keys(); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:33:40) * @return java.lang.String[] * @param name java.lang.String */ public String[] getParameterValues(String name) { if (pairs == null !pairs.containsKey(name)) return null; ArrayList al = (ArrayList) pairs.get(name); String[] values = new String[al.size()]; for(int i=0;i<values.length;i++) values[i] = (String) al.get(i); return values; } /** * Insert the method's description here. * Creation date: (2001-2-4 20:34:37) * @param urlenc java.lang.String */ private void parse(String urlenc) throws javaelse{ name = aPair; value = ""; } if(pairselse{ ArrayList values = new ArrayList(); values.add(value); pairs.put(name,values); } } }catch(Exception e){ throw new java.io.IOException(e.getMessage()); } } /** * Insert the method's description here. * Creation date: (2001-2-4 20:34:37) * @param urlenc java.lang.String */ private void parse(String urlenc,String encoding) throws java.io.IOException { if (urlenc == null) return; StringTokenizer tok = new StringTokenizer(urlenc,"&"); try{ while (tokelse{ name = aPair; value = ""; } if(pairselse{ ArrayList values = new ArrayList(); values.add(value); pairs.put(name,values); } } }catch(Exception e){ throw new java.io.IOException(e.getMessage()); } } } 這個類的功能就是讀取并保存form提交的信息,并實現常用的getParameter方法。
package com.hto.servlet; import java.io.*; import javax.servlet.*; import javax.servlet.http.*; /** * Insert the type's description here. * Creation date: (2001-2-5 8:28:20) * @author: 錢衛春 */ public class UtfBaseServlet extends HttpServlet { public static final String PARAMS_ATTR_NAME = "PARAMS_ATTR_NAME"; /** * Process incoming HTTP GET requests * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { performTask(request, response); } /** * Process incoming HTTP POST requests * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { performTask(request, response); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static java.sql.Date getDateParameter(HttpServletRequest request, Str ing name, boolean required, java.sql.Date defValue) throws ServletException{
String value = getParameter(request,name,required,String.valueOf(defValue));
return java.sql.Date.valueOf(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static double getDoubleParameter(HttpServletRequest request, String n ame, boolean required, double defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Double.parseDouble(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static float getFloatParameter(HttpServletRequest request, String nam e, boolean required, float defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Float.parseFloat(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static int getIntParameter(HttpServletRequest request, String name, b oolean required, int defValue) throws ServletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return Integer.parseInt(value); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:43:36) * @return java.lang.String * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue java.lang.String */ public static String getParameter(HttpServletRequest request, String name, b oolean required, String defValue) throws ServletException{ if(request.getAttribute(UtfBaseServlet.PARAMS_ATTR_NAME) != null) { UTF8ParameterReader params = (UTF8ParameterReader)request.getAttribute(UtfBa seServlet.PARAMS_ATTR_NAME); if (params.getParameter(name) != null) return params.getParameter(name); if (required) throw new ServletException("The Parameter "+name+" Required bu t not provided!"); else return defValue; }else{ if (request.getParameter(name) != null) return request.getParameter(name); if (required) throw new ServletException("The Parameter "+name+" Required bu t not provided!"); else return defValue; } } /** * Returns the servlet info string. */ public String getServletInfo() { return super.getServletInfo(); } /** * Insert the method's description here. * Creation date: (2001-2-5 8:52:43) * @return int * @param request javax.servlet.http.HttpServletRequest * @param name java.lang.String * @param required boolean * @param defValue int */ public static java.sql.Timestamp getTimestampParameter(HttpServletRequest re quest, String name, boolean required, java.sql.Timestamp defValue) throws Se rvletException{ String value = getParameter(request,name,required,String.valueOf(defValue));
return java.sql.Timestamp.valueOf(value); } /** * Initializes the servlet. */ public void init() { // insert code to initialize the servlet here } /** * Process incoming requests for information * * @param request Object that encapsulates the request to the servlet * @param response Object that encapsulates the response from the servlet */ public void performTask(HttpServletRequest request, HttpServletResponse resp onse) { try { // Insert user code from here. } catch(Throwable theException) { // uncomment the following line when uneXPected exceptions // are occuring to aid in debugging the problem. //theException.printStackTrace(); } } /** * Insert the method's description here. * Creation date: (2001-2-5 8:31:54) * @param request javax.servlet.ServletRequest * @param response javax.servlet.ServletResponse * @exception javax.servlet.ServletException The exception description. * @exception java.io.IOException The exception description. */ public void service(ServletRequest request, ServletResponse response) throws javax.servlet.ServletException, java } 這個就是Servlet基類,它覆蓋了父類的service方法,在調用父類service前,創建 了UTF8ParameterReader對象,其中保存了form中提交的信息。 然后把這個對象作為一個 Attribute保存到Request對象中。然后照樣調用父類的service方法。 對于繼承這個類的Servlet,要注意的是,"標準"getParameter在也不能讀到post的 數據,因為在這之前這個類中已經從ServletInputStream中讀出了數據了。所以應該使 用該類中提供的getParameter方法。 剩下的就是輸出問題了,我們要把輸出的信息,轉為UTF8的二進制流輸出。只要我 們設置Content-Type時指定charset為UTF8,然后使用PrintWriter輸出,那么這些轉換 是自動進行的,Servlet中這樣設置: response.setContentType("text/html;charset=UTF8"); Jsp中這樣設置: <%@ page contentType="text/html;charset=UTF8"%> 這樣就可以保證輸出是UTF8流,客戶端能否顯示,就看客戶端的了。 對于multipart/form-data的form提交的內容,我也提供一個類用來處理,在這個類 的構造子中可以指定頁面使用的charset,默認還是UTF-8,限于篇幅不貼出源碼,如果 感興趣可以mail to:vividq@china.com和我探討。