C標準庫源碼解剖(5)：字符串處理函數string.h和wchar.h(續)

2024-07-10 13:27:15

字體：大中小

來源：轉載

供稿：網友

3、字符串復制strcpy,strncpy,wcscpy,wcsncpy：將字符串src（或其前n個字符）復制到dest中，覆蓋dest的內容。實現中先檢查指針是否越界，計算指針dest到src的偏移，然后開始做復制操作，復制到dest的開始位置處，以覆蓋dest的內容。對strncpy，也采用了每4個字符作為一組來進行復制的方法，以加快復制速度。

[cpp] view plaincopy							
			/* strcpy.c：strcpy函數的實現 */  
			#include <stddef.h>   /* 用到了ptrdiff_t */  
			#include <string.h>  
			#include <memcopy.h>  
			#include <bp-checks.h>  /* 定義了CHECK_BOUNDS_LOW和CHECK_BOUNDS_HIGH */  
			#undef strcpy  
			/* 將SRC復制到DEST中，覆蓋DEST原先的內容 */  
			char *  
			strcpy (dest, src)  
			     char *dest;  
			     const char *src;  
			{  
			  reg_char c;  
			  /* 檢查指針src的值是否 >= low，返回原來的指針值 */  
			  char *__unbounded s = (char *__unbounded) CHECK_BOUNDS_LOW (src);  
			  /* 計算出目的地dest到s的偏移 */  
			  const ptrdiff_t off = CHECK_BOUNDS_LOW (dest) - s - 1;  
			  size_t n;  
			  do  
			    {  
			      c = *s++;   /* 把src中每個字符復制到目的地，覆蓋了dest中的內容 */  
			      s[off] = c;  
			    }  
			  while (c != '/0');  
			  n = s - src;  
			  (void) CHECK_BOUNDS_HIGH (src + n); /* 檢查指針src+n的值是否 < high，返回原來的指針值 */  
			  (void) CHECK_BOUNDS_HIGH (dest + n);  
			  return dest;  
			}  
			libc_hidden_builtin_def (strcpy)  

[cpp] view plaincopy							
			/* strncpy.c：strncpy函數的實現  */  
			#include <string.h>  
			#include <memcopy.h>  
			#undef strncpy  
			/* 將s2的前n個字符復制到s1中，覆蓋s1原先的內容，若s2不中n個字符， 
			    則填充null字符，直到寫入n個字符 */  
			char *  
			strncpy (s1, s2, n)  
			     char *s1;  
			     const char *s2;  
			     size_t n;  
			{  
			  reg_char c;  
			  char *s = s1;  
			  --s1; /* 指向首字符的前一個字符 */  
			  if (n >= 4)     /* 做復制操作，每4個字符作為一組來進行復制 */  
			    {  
			      size_t n4 = n >> 2; /* 讓n除以4，計算出循環次數 */  
			      for (;;)   /* 每次循環都復制4個字符，總共復制了4*n4個字符 */  
			    {  
			      c = *s2++;  
			      *++s1 = c;  
			      if (c == '/0') /* s2不足n個字符時，復制完畢，退出循環 */  
			        break;  
			      c = *s2++;  
			      *++s1 = c;  
			      if (c == '/0')  
			        break;  
			      c = *s2++;  
			      *++s1 = c;  
			      if (c == '/0')  
			        break;  
			      c = *s2++;  
			      *++s1 = c;  
			      if (c == '/0')  
			        break;  
			      if (--n4 == 0)  
			        goto last_chars; /* 循環終止，要對剩下的幾個字符（不超過3個）進行復制 */  
			    }  
			      n = n - (s1 - s) - 1;  
			      if (n == 0)  /* 若s1恰好到達s的終止符的前一個字符處 */  
			    return s;  /* 說明s與s2長度相等，均為n，復制操作恰好用s2覆蓋了s，終止符沒有覆蓋，直接返回s */  
			      goto zero_fill; /* 否則s1沒有到達s的末尾，說明s2不足n個字符，需要在s1末尾填充null字符，直到寫入n個字符 */  
			    }  
			 last_chars:  
			  n &= 3; /* 求出n除以4的余數 */  
			  if (n == 0)  /* 余數為0說明沒有剩余的未復制的字符，直接返回s */  
			    return s;  
			  do   /* 對剩下的幾個字符（最多3個）進行復制 */  
			    {  
			      c = *s2++;  
			      *++s1 = c;  
			      if (--n == 0)  
			    return s;  
			    }  
			  while (c != '/0');  
			 zero_fill:  
			  do  
			    *++s1 = '/0';  /* 在s1末尾填充null字符，直到寫入n個字符 */  
			  while (--n > 0);  
			  return s;  
			}  
			libc_hidden_builtin_def (strncpy)  

4、字符串求長strlen,wcslen：返回str中終止符'/0'之前的字符個數。這里通過把指針移到終止符處，然后計算該指針與開始處指針的差值來獲取字符串的長度。為了加快移動速度，實現中把const char*型指針char_ptr轉換成了unsigned long*型指針longword_ptr，這樣一次就可以移動4個字節。算法關鍵是要辨別出longword_ptr指向的值（有4個字節）中有一個字節為0（它表示字符'/0'），這說明指針到達了終止符'/0'處，要停止移動，并轉換回const char*型指針，計算指針之間的差值。

[cpp] view plaincopy							
			/* strlen.c：strlen函數的實現 */  
			#include <string.h>  
			#include <stdlib.h>  /* 用到abort()函數 */  
			#undef strlen  
			/* 返回以null終止的字符串str的長度。通過一次測試4個字節來迅速的掃描到null終止符 */  
			size_t  
			strlen (str)  
			     const char *str;  
			{  
			  const char *char_ptr;  
			  const unsigned long int *longword_ptr;  
			  unsigned long int longword, magic_bits, himagic, lomagic;  
			  /* 通過一次讀取一個字符來處理開頭的幾個字符，直到char_ptr中的值對齊到一個long型字的邊界， 
			      即直到char_ptr中的值是long的字節數（通常為4）的倍數 */  
			  for (char_ptr = str; ((unsigned long int) char_ptr  
			            & (sizeof (longword) - 1)) != 0;  
			       ++char_ptr)  
			    if (*char_ptr == '/0') /* 若到達null終止符，則直接返回長度 */  
			      return char_ptr - str;  
			  /* 所有這些說明性的注釋使用4字節的long型字，但本算法同樣也可以應用于8字節的long型字 */  
			    
			  longword_ptr = (unsigned long int *) char_ptr;  
			  /* magic_bits的第8,16,24,31位為0，稱這些位為“洞”。注意每個字節的左邊有一個洞， 
			      在最后的位置上也有一個洞。 
			     bits:  01111110 11111110 11111110 11111111 
			      比特1確保進位能傳播到后面的比特0上，比特0則提供洞，以便讓進位陷進去  */  
			  magic_bits = 0x7efefeffL;  
			  himagic = 0x80808080L;  /* 高位魔數，即第7,15,23,31位上為1 */  
			  lomagic = 0x01010101L;  /* 低位魔數，即第0,8,16,24位上為1 */  
			  if (sizeof (longword) > 4) /*  64位的平臺上 */  
			    {  
			      /* 魔數的64位版本 */  
			      /* 移位操作分兩步，以避免當long為32位時出現警告 */  
			      /* 位數的第8,16,24,32,40,48,56,63位上為0 */  
			      magic_bits = ((0x7efefefeL << 16) << 16) | 0xfefefeffL;  
			      himagic = ((himagic << 16) << 16) | himagic; /* 第7,15,23,31,39,47,55,63位上為1 */  
			      lomagic = ((lomagic << 16) << 16) | lomagic; /* 第0,8,16,24,32,40,48,56位上為0 */  
			    }  
			  if (sizeof (longword) > 8) /* long類型大于8字節則終止程序 */  
			    abort ();  
			  /* 這里我們不使用傳統的對每個字符都進行測試的循環，而是一次測試一個long型字。技巧性的部分 
			      是測試當前long型字的各個字節是否為0 */  
			  for (;;)  
			    {      
			      longword = *longword_ptr++;  
			      if (  
			#if 0  
			      /* 讓longword加上魔數magic_bits  */  
			      (((longword + magic_bits)  
			        /* 設置那些通過加法而未改變的位 */  
			        ^ ~longword)  
			         
			       /* 只需看這些洞。如果任何的洞位都沒有改變，最有可能的是有一個字節值為0 */  
			       & ~magic_bits)  
			#else  
			      ((longword - lomagic) & himagic)  
			#endif  
			      != 0)  
			    {       
			      /* 長整型字的哪個字節為0？如果都不為0，則是一個非預期情況，繼續搜索 */  
			      const char *cp = (const char *) (longword_ptr - 1);  
			      if (cp[0] == 0)  
			        return cp - str;  
			      if (cp[1] == 0)  
			        return cp - str + 1;  
			      if (cp[2] == 0)  
			        return cp - str + 2;  
			      if (cp[3] == 0)  
			        return cp - str + 3;  
			      if (sizeof (longword) > 4) /* 如果long類型是8個字節，則還有4個字節需要判斷 */  
			        {  
			          if (cp[4] == 0)  
			        return cp - str + 4;  
			          if (cp[5] == 0)  
			        return cp - str + 5;  
			          if (cp[6] == 0)  
			        return cp - str + 6;  
			          if (cp[7] == 0)  
			        return cp - str + 7;  
			        }  
			    }  
			    }  
			}  
			libc_hidden_builtin_def (strlen)  

    解釋：
    （1）先移動char_ptr，使其值對齊到長整型字的邊界，即移動到使char_ptr中的值是4的倍數為止。在對齊過程中若到達了終止符處，則直接返回與開始處的指針str的差值。
    （2）對longword_ptr指針進行移動時，指針指向的值為longword。為了判斷指針是否到達終止符，算法實現使用了兩個魔數lomagic和himagic，lomagic各個字節的最低位為1，其余位均為0；himagic各個字節的最高位為1，其余位均為0?？幢磉_式(longword - lomagic) & himagic，若longword中有一個字節為00000000，則減00000001時要向高字節借一位，得到11111111或11111110（當借了一位給更低的字節時），與10000000做“與”運算后變成10000000，這時表達式的結果必定不為0?？梢?，只有在表達式結果不等于0時，longword中才有可能有終止符。因此，在移動過程中，一旦表達式結果不等于0，只要逐一檢查一下每個字節，看哪個為0，這時就到達終止符，計算指針差值并返回。若都不為0，則繼續移動。
    （3）也可以只用一個魔數magic_bits來實現，即代碼中用#if 0注釋掉的那部分，它可以達到同樣的效果?？幢磉_式((longword + magic_bits) ^ ~longword) & ~magic_bits，最后的“與”運算會使結果的其他位清零，只留下那4個洞位，因此我們只要看longword的洞位的變化即可。若longword中有一個字節為0，則做加法后它不可能向高字節（即左側字節）進位，左側字節的洞位沒有改變（因為magic_bits的對應洞位為0，加上0而又沒有低字節的進位，因此不會改變）。做異或運算后，必定使這個洞位變成1，因此表達式的結果必定不為0?？梢?，這跟（2）用兩個魔數實現的效果是一樣的。
    5、字符搜索strchr,strrchr,wcschr,wcsrchr：在字符串s中查找字符c的第一次（或最后一次）出現，若沒找到則返回NULL指針。算法實現與strlen類似，只不過在strlen是搜索到終止符'/0'為止，這里是搜索到字符c為止。

[cpp] view plaincopy							
			/* strchr.c：strchr函數的實現  */  
			#include <string.h>  
			#include <memcopy.h>  /* 非標準頭文件，要用到reg_char類型 */  
			#include <stdlib.h>   /* 要用到abort() */  
			#undef strchr  
			/* 在S中查找C的第一次出現，如果沒有找到，則返回NULL指針  */  
			char *  
			strchr (s, c_in)  
			     const char *s;  
			     int c_in;  
			{  
			  const unsigned char *char_ptr;  
			  const unsigned long int *longword_ptr;  
			  unsigned long int longword, magic_bits, charmask;  
			  unsigned reg_char c;  
			  c = (unsigned char) c_in;  
			  /* 通過一次讀取一個字符來處理開頭的幾個字符，直到char_ptr中的值對齊到一個long型字的邊界， 
			      即直到char_ptr中的值是long的字節數（通常為4）的倍數 */  
			  for (char_ptr = (const unsigned char *) s;  
			       ((unsigned long int) char_ptr & (sizeof (longword) - 1)) != 0;  
			       ++char_ptr)  
			    if (*char_ptr == c)     /* 若到達字符c處，則直接返回其指針 */  
			      return (void *) char_ptr;  
			    else if (*char_ptr == '/0')  /* 沒找到c則返回NULL */  
			      return NULL;  
			  /* 所有這些說明性的注釋使用4字節的long型字，但本算法同樣也可以應用于8字節的long型字 */  
			  longword_ptr = (unsigned long int *) char_ptr;  
			  /* magic_bits的第8,16,24,31位為0，稱這些位為“洞”。注意每個字節的左邊有一個洞， 
			      在最后的位置上也有一個洞。 
			     bits:  01111110 11111110 11111110 11111111 
			      比特1確保進位能傳播到后面的比特0上，比特0則提供洞，以便讓進位陷進去  */  
			  switch (sizeof (longword))  
			    {  
			    case 4: magic_bits = 0x7efefeffL; break;  
			    case 8: magic_bits = ((0x7efefefeL << 16) << 16) | 0xfefefeffL; break;  
			    default:  
			      abort ();  
			    }  
			  /* 設置一個長整型字，其每個字節都是字符c */  
			  charmask = c | (c << 8);  
			  charmask |= charmask << 16;  
			  if (sizeof (longword) > 4)  
			    /* 移位操作分兩步，以避免當long為32位時出現警告 */  
			    charmask |= (charmask << 16) << 16;  
			  if (sizeof (longword) > 8)   
			    abort ();  /* long類型大于8字節則終止程序 */  
			  /* 這里我們不使用傳統的對每個字符都進行測試的循環，而是一次測試一個long型字。技巧性的部分 
			      是測試當前long型字的各個字節是否為0 */  
			  for (;;)  
			    {      
			      longword = *longword_ptr++;  
			      /* 讓longword加上魔數magic_bits  */  
			      if ((((longword + magic_bits)  
			        /* 設置那些通過加法而未改變的位 */  
			        ^ ~longword)  
			       /* 只需看這些洞。如果任何的洞位都沒有改變，最有可能的是有一個字節值為0 */  
			       & ~magic_bits) != 0 ||  
			      /* 捕捉到值為0的字節后，測試字中是否含有字符c  */  
			      ((((longword ^ charmask) + magic_bits) ^ ~(longword ^ charmask))  
			       & ~magic_bits) != 0)  
			    {  
			      /* 長整型字的哪個字節為C或0？如果都不是，則是一個非預期情況，繼續搜索 */  
			      const unsigned char *cp = (const unsigned char *) (longword_ptr - 1);  
			      if (*cp == c)  
			        return (char *) cp;  
			      else if (*cp == '/0')  
			        return NULL;  
			      if (*++cp == c)  
			        return (char *) cp;  
			      else if (*cp == '/0')  
			        return NULL;  
			      if (*++cp == c)  
			        return (char *) cp;  
			      else if (*cp == '/0')  
			        return NULL;  
			      if (*++cp == c)  
			        return (char *) cp;  
			      else if (*cp == '/0')  
			        return NULL;  
			      if (sizeof (longword) > 4) /* 如果long類型是8個字節，則還有4個字節需要判斷 */  
			        {  
			          if (*++cp == c)  
			        return (char *) cp;  
			          else if (*cp == '/0')  
			        return NULL;  
			          if (*++cp == c)  
			        return (char *) cp;  
			          else if (*cp == '/0')  
			        return NULL;  
			          if (*++cp == c)  
			        return (char *) cp;  
			          else if (*cp == '/0')  
			        return NULL;  
			          if (*++cp == c)  
			        return (char *) cp;  
			          else if (*cp == '/0')  
			        return NULL;  
			        }  
			    }  
			    }  
			  return NULL;  
			}  
			#ifdef weak_alias  
			#undef index  
			weak_alias (strchr, index)  
			#endif  
			libc_hidden_builtin_def (strchr)  

[cpp] view plaincopy							
			/* strrchr.c：strrchr函數的實現 */  
			#include <string.h>  
			#undef strrchr  
			/* 在S中查找C的最后一次出現  */  
			char *  
			strrchr (const char *s, int c)  
			{  
			  register const char *found, *p;  
			  c = (unsigned char) c;  
			  /* 因為strchr非常地快，我們直接使用它來實現strrchr */  
			  if (c == '/0')  
			    return strchr (s, '/0');  
			  found = NULL;  
			  while ((p = strchr (s, c)) != NULL)  
			    {  
			      found = p;  
			      s = p + 1;  
			    }  
			  return (char *) found;  
			}  
			#ifdef weak_alias  
			#undef rindex  
			weak_alias (strrchr, rindex)  
			#endif  
			libc_hidden_builtin_def (strrchr)  

    解釋：
    （1）算法中，有可能搜索到字符c，也有可能搜索到終止符（當字符串中沒有c時）。對于搜索到終止符，與strlen中一樣，對于搜索到字符c，要判斷longword中是否有一個字節為c，看表達式(((longword ^ charmask) + magic_bits) ^ ~(longword ^ charmask)) & ~magic_bits，長整型字charmask的每個字節都是字符c。strlen的對應表達式中的longword換成了這里的longword ^ charmask，而這里的longword中有一個字節為c，恰好等價于longword ^ charmask中有一個字節為0，因此具體的分析過程是一樣的。
    （2）strrchr的實現直接使用strchr。用strchr不停地向前搜索，直到搜索到最后一個c為止。
    6、子串的無順序匹配strspn,strcspn,strpbrk,wcsspn,wcscspn,wcspbrk：strspn和strcspn在s的開頭查找一個最長子串，使其所有字符都在accept中（或都不在reject中），返回這個子串的長度。strspn的實現中直接對s中開頭的每個字符搜索accept，看其是否在accept中。strcspn的實現則使用了strchr來查找字符。strpbrk在s中搜索第一個出現在accept中的字符，返回其指針。

[cpp] view plaincopy							
			/* strspn.c：strspn函數的實現 */  
			#include <string.h>  
			#undef strspn  
			/* 返回S中的第一個子串長度，這個子串的所有字符都在ACCEPT中  */  
			size_t  
			strspn (s, accept)  
			     const char *s;  
			     const char *accept;  
			{  
			  const char *p;  
			  const char *a;  
			  size_t count = 0;  
			  for (p = s; *p != '/0'; ++p) /* 對s開頭的各個字符，搜索accept */  
			    {  
			      for (a = accept; *a != '/0'; ++a)  
			    if (*p == *a)  /* 若該字符在accept中，則子串長度加1 */  
			      break;  
			      if (*a == '/0') /* 若在accept中沒有找到該字符，則子串匹配結束，直接返回count */  
			    return count;  
			      else  
			    ++count;  
			    }  
			  return count;  
			}  
			libc_hidden_builtin_def (strspn)  

[cpp] view plaincopy							
			/* strcspn.c：strcspn函數的實現 */  
			#if HAVE_CONFIG_H  
			# include <config.h>  
			#endif  
			#if defined _LIBC || HAVE_STRING_H  
			# include <string.h>  
			#else  
			# include <strings.h>  
			# ifndef strchr  
			#  define strchr index  
			# endif  
			#endif  
			#undef strcspn  
			/* 返回S中的第一個子串長度，這個子串的所有字符都不在REJECT中  */  
			size_t  
			strcspn (s, reject)  
			     const char *s;  
			     const char *reject;  
			{  
			  size_t count = 0;  
			  while (*s != '/0')  /* 對s開頭的各個字符，搜索reject */  
			    if (strchr (reject, *s++) == NULL) /* 若不在reject，則子串長度加1 */  
			      ++count;  
			    else  
			      return count;  
			  return count;  
			}  
			libc_hidden_builtin_def (strcspn)  

[cpp] view plaincopy							
			/* strpbrk.c：strpbrk函數的實現  */  
			#ifdef HAVE_CONFIG_H  
			# include <config.h>  
			#endif  
			#if defined _LIBC || defined HAVE_CONFIG_H  
			# include <string.h>  
			#endif  
			#undef strpbrk  
			/* 在s中搜索第一個出現在accept中的字符，返回其指針 */  
			char *  
			strpbrk (s, accept)  
			     const char *s;  
			     const char *accept;  
			{  
			  while (*s != '/0') /* 對s開頭的各個字符，看其是否在accept中 */  
			    {  
			      const char *a = accept;  
			      while (*a != '/0')  
			    if (*a++ == *s) /* 若在accept，則返回，否則繼承向前搜索 */  
			      return (char *) s;  
			      ++s;  
			    }  
			  return NULL;  
			}  
			libc_hidden_builtin_def (strpbrk)  

7、模式匹配及字符串解析strstr,strtok,wcsstr,wcstok：strstr(src,sub)在src中搜索子串sub，返回其第一次出現的位置。strtok(str,set)用set中的字符作為分隔符把str分解為多個標號。
strstr的實現用了最新的二路模式匹配算法，可以達到最好的效率。由于算法比較復雜，涉及到很多內部函數，這里就不解剖了，我們平時一般使用KMP算法來進行模式匹配，這個效率也已經非常不錯了。strtok實現如下：

[cpp] view plaincopy							
			/* strok.c：strok函數的實現  */  
			#include <string.h>  
			static char *olds; /* 下一記號的開始處，若到達字符串末尾，則olds指向終止符'/0' */  
			#undef strtok  
			/* 用DELIM中的字符作為分隔符把S解析成多個記號，返回當前的記號。如果S為NULL， 
			    則strtok從即下一記號的開始處開始解析。例如： 
			    char s[] = "-abc-=-def"; 
			    x = strtok(s, "-");     // x = "abc" 
			    x = strtok(NULL, "-=");     // x = "def" 
			    x = strtok(NULL, "=");      // x = NULL 
			        // s = "abc/0=-def/0" 
			*/  
			char *  
			strtok (s, delim)  
			     char *s;  
			     const char *delim;  
			{  
			  char *token;  
			  if (s == NULL) /* s指定為NULL，則使用olds */  
			    s = olds;  
			  /* 從s開始搜索分隔符，跳過分隔符，讓s移動到記號開始處  */  
			  s += strspn (s, delim);  
			  if (*s == '/0') /* 若s到達字符串末尾，則返回NULL表示記號解析過程完畢 */  
			    {  
			      olds = s;  
			      return NULL;  
			    }  
			  /* 找到當前記號的末尾處（即下一分隔符處）  */  
			  token = s; /* token指向記號的首個字符 */  
			  s = strpbrk (token, delim); /* 從token開始找到下一分隔符，讓s指向它 */  
			  if (s == NULL) /* 如果到達的是字符串末尾，說明當前記號是最后一個記號 */  
			    /* 從token開始，找到終止符，并賦給olds，表示記號解析結束  */  
			    olds = __rawmemchr (token, '/0');  
			  else  /* 否則s指向了下一分隔符 */  
			    {  
			      /* 把分隔符替換成'/0'，以解析出當前記號，讓OLDS指向下一記號的開始處  */  
			      *s = '/0';  
			      olds = s + 1;  
			    }  
			  return token;  
			}