亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > JavaScript > 正文

ES6中字符串的使用方法擴展

2019-11-19 11:24:13
字體:
來源:轉載
供稿:網友

字符的Unicode表示法

JavaScript允許采用/uxxxx形式表示一個字符,其中“xxxx”表示字符的碼點。

"/u0061"http:// "a"

但是,這種表示法只限于/u0000――/uFFFF之間的字符。超出這個范圍的字符,必須用兩個雙字節的形式表達。

"/uD842/uDFB7"http:// "𠮷""/u20BB7"http:// " 7"

上面代碼表示,如果直接在/u后面跟上超過0xFFFF的數值(比如/u20BB7),JavaScript會理解成/u20BB+7。由于/u20BB是一個不可打印字符,所以只會顯示一個空格,后面跟著一個7。

ES6 對這一點做出了改進,只要將碼點放入大括號,就能正確解讀該字符。

下面代碼中,最后一個例子表明,大括號表示法與四字節的UTF-16編碼是等價的。

"/u{20BB7}"http:// "𠮷""/u{41}/u{42}/u{43}"http:// "ABC"let hello = 123;hell/u{6F} // 123'/u{1F680}' === '/uD83D/uDE80'// true

有了上述表示法之后,JavaScript共有6種方法可以表示一個字符。

'/z' === 'z' // true'/172' === 'z' // true'/x7A' === 'z' // true'/u007A' === 'z' // true'/u{7A}' === 'z' // true

codePointAt()

ES6提供了codePointAt方法,能夠正確處理4個字節儲存的字符,返回一個字符的碼點。

var s = '𠮷a';s.codePointAt(0) // 134071s.codePointAt(1) // 57271s.codePointAt(2) // 97

codePointAt方法的參數,是字符在字符串中的位置(從0開始)。上面代碼中,JavaScript將“𠮷a”視為三個字符,codePointAt方法在第一個字符上,正確地識別了“𠮷”,返回了它的十進制碼點134071(即十六進制的20BB7)。在第二個字符(即“𠮷”的后兩個字節)和第三個字符“a”上,codePointAt方法的結果與charCodeAt方法相同。

codePointAt方法返回的是碼點的十進制值,如果想要十六進制的值,可以使用toString方法轉換一下。

var s = '𠮷a';s.codePointAt(0).toString(16) // "20bb7"s.codePointAt(2).toString(16) // "61"

實際上codePointAt方法的參數,仍然是不正確的。上面代碼中,字符a在字符串s的正確位置序號應該是1,但是必須向codePointAt方法傳入2。解決這個問題的一個辦法是使用for...of循環,因為它會正確識別32位的UTF-16字符。

var s = '𠮷a';for (let ch of s) { console.log(ch.codePointAt(0).toString(16));}// 20bb7// 61

String.fromCodePoint()

ES5提供String.fromCharCode方法,用于從碼點返回對應字符,但是這個方法不能識別32位的UTF-16字符(Unicode編號大于0xFFFF)。

下面代碼中,String.fromCharCode不能識別大于0xFFFF的碼點,所以0x20BB7就發生了溢出,最高位2被舍棄了,最后返回碼點U+0BB7對應的字符,而不是碼點U+20BB7對應的字符。

String.fromCharCode(0x20BB7)// "ஷ"

ES6提供了String.fromCodePoint方法,可以識別0xFFFF的字符,彌補了String.fromCharCode方法的不足。在作用上,正好與codePointAt方法相反。

String.fromCodePoint(0x20BB7)// "𠮷"String.fromCodePoint(0x78, 0x1f680, 0x79) === 'x/uD83D/uDE80y'// true

上面代碼中,如果String.fromCodePoint方法有多個參數,則它們會被合并成一個字符串返回。

注意,fromCodePoint方法定義在String對象上,而codePointAt方法定義在字符串的實例對象上。

字符串的遍歷器接口

ES6為字符串添加了遍歷器接口(詳見《Iterator》一章),使得字符串可以被for...of循環遍歷。

for (let codePoint of 'foo') { console.log(codePoint)}// "f"http:// "o"http:// "o"

at()

目前,ES6有一個提案,提出字符串實例的at方法,可以識別Unicode編號大于0xFFFF的字符,返回正確的字符。

'abc'.at(0) // "a"'𠮷'.at(0) // "𠮷"

normalize()

許多歐洲語言有語調符號和重音符號。為了表示它們,Unicode提供了兩種方法。一種是直接提供帶重音符號的字符,比如Ǒ(/u01D1)。另一種是提供合成符號(combining character),即原字符與重音符號的合成,兩個字符合成一個字符,比如O(/u004F)和ˇ(/u030C)合成Ǒ(/u004F/u030C)。
這兩種表示方法,在視覺和語義上都等價,但是JavaScript不能識別。

'/u01D1'==='/u004F/u030C' //false'/u01D1'.length // 1'/u004F/u030C'.length // 2

上面代碼表示,JavaScript將合成字符視為兩個字符,導致兩種表示方法不相等。

ES6提供字符串實例的normalize()方法,用來將字符的不同表示方法統一為同樣的形式,這稱為Unicode正規化。

'/u01D1'.normalize() === '/u004F/u030C'.normalize()// true

normalize方法可以接受一個參數來指定normalize的方式,參數的四個可選值如下。