亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

跟你一起分析JAVA中文比較問題的解決

2019-11-18 13:08:17
字體:
來源:轉載
供稿:網友

  java的中文問題由來已久,前不久筆者需要做內存中的中文比較排序,對字符串進行GBK或者GB2312編碼以后,使用String.compareTo方法仍然不能得到正確結果。因此,懷著懷疑的態度,對JDK中String類的源代碼做了一翻探究。(作者使用JDK為1.3.1版本)
  
  以下是String.java中compareTo的源代碼,請注重其中的注釋:
  
  public class String
  {
  …
  public int compareTo(String anotherString) {
  int len1 = count;
  int len2 = anotherString.count;
  //n為兩個字符串長度的最小者
  int n = Math.min(len1, len2);
  //獲取字符數組
  char v1[] = value;
  char v2[] = anotherString.value;
  //取偏依位置
  /** The offset is the first index of the storage that is used. */
  //offset 是第一個存儲索引
  int i = offset;
  int j = anotherString.offset;
  //假如i == j
  //這里可能是判定取同一內存中兩個字符串的情景。。。
  // A  <--  <----
  // B  s1   
  // C  <--   
  // D      s2
  // E      
  // F      
  // G  <----------
  // 可能這種情況 i = j
  if (i == j) {
  int k = i;
  int lim = n + i;
  
  while (k < lim)
  {
  char c1 = v1[k];
  char c2 = v2[k];
  if (c1 != c2) file://直到找到一個不相等的字符,返回c1 - c2
  return c1 - c2;
  k++;
  }
  } else {
  while (n-- != 0)
  file://直到兩個字符串長度記數為0
  {
  char c1 = v1[i++]; file://分別取字符
  char c2 = v2[j++];
  if (c1 != c2) {
  //發現不相等,立即返回c1 - c2;
  return c1 - c2;
  }
  }
  }
  return len1 - len2;
  //最后這里可能出現的情況是: 兩個字符串比較完之后還沒有得到結果。相等的情況
  }
  …
  }//end of class String c2) file://直到找到一個不相等的字符,返回c1 - c2              return c1 - c2;           k++;      }    } else {      while (n-- != 0) file://直到兩個字符串長度記數為0       {           char c1 = v1[i++]; file://分別取字符           char c2 = v2[j++];           if (c1 != c2) { //發現不相等,立即返回c1 - c2;              return c1 - c2;           }      }    }    return len1 - len2; //最后這里可能出現的情況是: 兩個字符串比較完之后還沒有得到結果。相等的情況  }…}//end of class String
  
  為什么Java在做漢字的CompareTo時比較會有問題呢?通過對compareTo源代碼的分析發現,要害在于JDK的compareTo實現是直接使用Char來進行比較的:
  
  char c1 = v1[k];
  
  char c2 = v2[k];
  
  可是當Java使用GB2312編碼時,一個對漢字所獲取到的Char值卻是不規則的,即一個漢字在Java中作為一個char來處理(雙字節字符)時,將這樣的雙字節字符進行強制轉換成int類型時,所得到的不是包含了漢字編碼順序的中文內碼??梢钥匆幌乱唤M測試數據可以看到其中奧妙:
  
  字符
  Char值
  Byte[]值
  按Byte[]合成的值
  
  我
  25105
  [50:46]
  [-5046]
  
  愛
  29233
  [80:82]
  [-8082]
  
  北
  21271
  [79:79]
  [-7979]
  
  京
  20140
  [66:87]
  [-6687]
  
  天
  22825
  [52:20]
  [-5220]
  
  安
  23433
  [80:78]
  [-8078]
  
  門
  38376
  [61:59]
  [-6159]
  
  A
  65
  [-65]
  [65]
  
  B
  66
  [-66]
  [66]
  
  C
  67
  [-67]
  [67]
  
  D
  68
  [-68]
  [68]
  
  按照中文順序:“我”字應該在“愛”字后面,因此理論上來講"我"字的Char值應該比“愛"字的char值要大??墒遣恢罏槭裁碕ava的漢字char(兩個byte)->int類型的轉換會發生很大偏差。而失去了漢字原本在GBK規范當中,按內碼排列好的順序。但從一個漢字拆分成2個字節的byte[]時,所得到的值并沒有打亂GBK編碼規定的順序,因此得到解決問題的思路:將String進行GB2312編碼后取得某個漢字獲取其Char值時,將漢字拆分成2個字節byte[]再進行計算,從而得到正確的內碼。
  
  因此我自己寫了下面這樣幾個函數,基本上解決了漢字比較的問題:
  
  函數包括三個,你可以隨意放置到任何類當中作為輔助函數使用(PRivate Helper)。
  
  n public int compare(String s1, String s2) :主要工作是為比較做一些前期的編碼工作可以說是系統的一個外殼。
  
  n public int chineseCompareTo(String s1, String s2):該函數則是中文字符串比較主體,其內部實現了比較的最基本邏輯,和JDK的compareTo所使用的邏輯是一樣的。調用接口也一樣。
  
  n public static int getCharCode(String s):該函數則負責將一個以字符串形式存在的字符轉換成為int編碼,兒不損失其位置信息。注重輸入通常是:“我”或者“A”,假如輸入更長的字符串,則改函數獲得的是第一個字符的值。
  
  private static String __ENCODE__ = "GBK"; file://一定要是GBKprivate static String __SERVER_ENCODE__ = "GB2312"; file://服務器上的缺省編碼/*比較兩字符串*/    public int compare(String s1, String s2)    {       String m_s1 = null, m_s2 = null;       try       {           //先將兩字符串編碼成GBK           m_s1 = new String ( s1.getBytes(__SERVER_ENCODE__), __ENCODE__);           m_s2 = new String ( s2.getBytes(__SERVER_ENCODE__), __ENCODE__);       }       catch( Exception ex)       {           return s1.compareTo(s2);       }       int res = chineseCompareTo(m_s1, m_s2);        System.out.println("比較:" + s1 + " " + s2 + "==== Result: " + res);       return res;    } //獲取一個漢字/字母的Char值    public static int getCharCode(String s)    {       if (s==null && s.equals(“”)) return -1; file://保護代碼byte [] b = s.getBytes();       int value = 0;       //保證取第一個字符(漢字或者英文)       for (int i = 0; i < b.length && i <= 2; i ++)       {           value = value * 100 + b[i];       }       return value;    } //比較兩個字符串    public int chineseCompareTo(String s1, String s2)    {       int len1 = s1.length();       int len2 = s2.length();        int n = Math.min(len1, len2);        for (int i = 0; i < n; i ++)       {           int s1_code = getCharCode(s1.charAt(i) + "");           int s2_code = getCharCode(s2.charAt(i) + "");           if (s1_code != s2_code) return s1_code - s2_code;       }       return len1 - len2;    }
  
  可見,對系統源代碼的解剖,能讓我們在迷惑之余同樣有機會窺探系統內部運作的奧妙。不過讓人非常費解的是,Java內部的某些類書寫風格非常不好,同時存在一些Bug。不過這也許是筆者個人感受。偶有所獲,愿與大家共同分享,其中疏漏之處望不吝賜教。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
亚洲最新中文字幕| 深夜精品寂寞黄网站在线观看| 热久久美女精品天天吊色| 国产欧美精品在线播放| 日本高清视频精品| 91精品国产综合久久香蕉最新版| 少妇高潮 亚洲精品| 欧美日韩成人在线播放| 福利一区视频在线观看| 亚洲国产精品中文| 欧美成人一二三| 亚洲护士老师的毛茸茸最新章节| 亚洲人午夜精品| 亚洲新中文字幕| 欧美日韩精品中文字幕| 久久夜色撩人精品| 久久不射热爱视频精品| 91欧美激情另类亚洲| 国内精品美女av在线播放| 亚洲欧洲在线看| 91极品视频在线| 92国产精品久久久久首页| 成人h片在线播放免费网站| 国产日产亚洲精品| 97av在线视频| 亚洲欧美制服中文字幕| 中文字幕一区电影| 国产福利精品在线| 久久亚洲私人国产精品va| 亚洲自拍偷拍福利| 亚洲精品成人免费| 亚洲网址你懂得| 亚洲已满18点击进入在线看片| 亚洲乱码国产乱码精品精天堂| 中文字幕亚洲第一| 欧美激情综合色| 亚洲韩国青草视频| 久久久久免费精品国产| 亚洲最大成人免费视频| 国产精品电影观看| 色综合久久88色综合天天看泰| 国产精品老牛影院在线观看| 国产精品99一区| 欧美黄网免费在线观看| 国产一区二中文字幕在线看| 久久久久久久国产| 国产一区二区三区视频| 色午夜这里只有精品| 国产精品极品美女在线观看免费| 狠狠做深爱婷婷久久综合一区| 91精品国产91久久久久久| 日韩精品黄色网| 中文字幕在线观看日韩| 亚洲精品电影在线观看| 欧美大全免费观看电视剧大泉洋| 裸体女人亚洲精品一区| 2021久久精品国产99国产精品| 亚洲欧美精品suv| 91精品国产综合久久男男| 日韩人体视频一二区| 日韩极品精品视频免费观看| 国产成人精品综合| 一区二区在线视频播放| 久久综合久久八八| 亚洲视频777| 日韩av一区在线| 亚洲另类欧美自拍| 国产精品白嫩美女在线观看| 国产精品久久久久久搜索| 午夜精品国产精品大乳美女| 久久人人爽人人爽人人片av高请| 97av在线影院| 欧美激情xxxx| 韩国视频理论视频久久| 日韩av一卡二卡| 日韩小视频在线观看| 亚洲品质视频自拍网| 国产精品福利观看| 日韩高清av一区二区三区| 精品呦交小u女在线| 成人网在线视频| 国产午夜精品一区理论片飘花| 九色91av视频| xvideos成人免费中文版| 日韩av中文字幕在线播放| 亚洲第一色在线| 全球成人中文在线| 亚洲国产精品嫩草影院久久| 久久人人爽亚洲精品天堂| 日韩成人av在线播放| 亚洲第一福利网| 国产日韩av在线| 4p变态网欧美系列| 亚洲国产精品久久久| 亚洲国产精品国自产拍av秋霞| 国产精品成人一区二区| 成人免费午夜电影| 国产精品一区二区三区免费视频| 日韩av免费观影| 久久久久久久影院| 欧美午夜片欧美片在线观看| 日韩精品电影网| 一区二区三区四区在线观看视频| 亚洲欧美国产精品va在线观看| 中文字幕在线亚洲| 成人午夜激情免费视频| 91视频免费在线| 久久天天躁狠狠躁夜夜躁2014| 青青草精品毛片| 亚洲精品永久免费| 国产亚洲精品一区二区| 日韩av免费在线看| 亚洲片在线资源| 国产成人精品午夜| www亚洲欧美| 一区二区三区视频免费在线观看| 亚洲va欧美va国产综合剧情| 欧美日韩国产一区二区| 亚洲精品少妇网址| 国产主播在线一区| 久久久精品国产亚洲| 中文字幕亚洲字幕| 国产精品极品美女在线观看免费| 午夜精品久久久久久99热软件| 91精品久久久久久久久久| 久久久久久久国产精品| 欧美一级淫片aaaaaaa视频| 91成人性视频| 国内精品久久久久影院优| 2018日韩中文字幕| 国产日本欧美一区二区三区| 久久这里有精品| 96pao国产成视频永久免费| www亚洲精品| 国产精品美乳在线观看| 欧美性猛交xxxx乱大交| 久久久久久午夜| 欧美激情视频免费观看| 欧美性受xxxx白人性爽| 亚洲图片制服诱惑| 亚洲色图35p| 亚洲视频免费一区| 久久九九精品99国产精品| 国产日韩综合一区二区性色av| 亚洲深夜福利网站| 日韩欧美在线视频| 欧美日韩精品在线视频| 69国产精品成人在线播放| 国产精品亚洲综合天堂夜夜| 美女黄色丝袜一区| 欧美国产极速在线| 亚洲天堂男人天堂女人天堂| 成人在线国产精品| 亚洲一区免费网站| 久久精品中文字幕电影| 欧美最近摘花xxxx摘花| 久久精品成人欧美大片古装| 另类专区欧美制服同性| 精品久久久香蕉免费精品视频| 成人性教育视频在线观看| 久久久精品免费视频| 久久久女人电视剧免费播放下载| 国产午夜精品一区理论片飘花| 久久视频免费在线播放|