Ruby語言中的String深入理解
2019-10-26 19:22:44
供稿:網友
Ruby語言中的String是mutable的,不像java、C#中的String是immutable的。比如
代碼如下:
str1="abc"
str2="abc"
在java中,對于字面量的字符串,jvm內部維持一張表,因此如果在java中,str1和str2是同一個String對象。而在Ruby中, str1和str2是完全不同的對象。同樣,在java中對于String對象的操作都將產生一個新的對象,而Ruby則是操縱同一個對象,比如:
代碼如下:
str="abc"
str.concat("cdf")
此時str就是"abccdf"。Ruby對String是怎么處理的呢?我們只談談c ruby中的實現,有興趣的先看看這篇文章《管窺Ruby——對象基礎》。在ruby.h中我們可以看到String對象的結構,Ruby中的對象(包括類也是對象)都是一個一個的struct,String也不能例外:
代碼如下:
struct RString {
struct RBasic basic;
long len;
char *ptr;
union {
long capa;
VALUE shared;
} aux;
};
//ruby.h
顯然,len是String的長度;ptr是一個char類型的指針,指向實際的字符串;然后是一個聯合,這個稍后再說。如果你看看ruby.h可以發 現,幾乎所有定義的對象結構都有一個struct RBasic。顯然,struct RBasic包含由所有對象結構體共享的一些重要信息的。看看RBasic:
代碼如下:
struct RBasic {
unsigned long flags;
VALUE klass;
};
其中的flags是一個多用途的標記,大多數情況下用于記錄結構體的類型,ruby.h中預定義了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一個VALUE類型,VALUE也是unsigned long,可以地將它當成指針(一個指針4字節,綽綽有余了),它指向的是一個Ruby對象,這里以后再深入。
那么聯合aux中的capa和shared是干什么用的呢?因為Ruby的String是可變的,可變意味著len可以改變,我們需要每次都根據len的 變換來增減內存(使用c中的realloc()函數),這顯然是一個很大的開銷,解決辦法就是預留一定的空間,ptr指向的內存大小略大于len,這樣就 不需要頻繁調用realloc了,aux.capa就是一個長度,包含額外的內存大小。那么aux.shared是干什么的呢?這是一個VALUE類型, 說明它是指向某個對象。aux.shared其實是用于加快字符串的創建速度,在一個循環中:
ruby 代碼
whiletruedo重復 a="str"#以“str”為內容創建字符串,賦值給a a.concat("ing")#為a所指向的對象添加“ing” p(a)#顯示“string” end
每次都重新創建一個"str"對象,內部就是重復創建一個char[],這是相當奢侈,aux.shared就是用于共享char[],以字面量創建的字符串會共享一個char[],當要發生變化時,將字符串復制到一個非共享的內存中,變化針對這個新拷貝進行,這就是所謂的“copy-on-write"技術。解釋了String的內部構造,貌似還沒有介紹String是怎么實現mutable,我們寫一個Ruby擴展測試下,我們想寫這樣一個Ruby類: