c/C++字符串操作

首页 > 代码库 > c/C++字符串操作

2024-07-18 09:31:51 215人阅读

C字符串

有3种编码模式，并对应3种字符类型。
   (1)单字节字符集（single-byte character set (SBCS)).
      -在这种编码模式下，所有的字符都只用一个字节(Byte)标示。
      -ASCII是SBCS,用一个字节标示为‘\0‘的来标识SBCS字符串的结束
      -单字节字符包含拉丁文字母表，accented characters及ASCII标准和DOS操作系统定义的图形字符。
       例如"Hi!"是如下存放的. (1Byte存放数值范围: 00 ~ FF (16进制))
      ┌─────────────────────────────┐
          Size                                  1Byte       1Byte      1Byte     1Byte
          Memory Content(Hex)     48          69             21          00
          Charactor                            H            i                 !
      └─────────────────────────────┘

   (2)多字节字符集(multi-bye character set (MBCS)).
      -在Windows中MBCS包含两种字符类型,单字节字符和双字节字符.由于windows使用的多字节字符绝大部分是两个字节长，所以MBCS常被DBCS代替.
      -在DBCS编码模式中，一些特定的值被保留用来表明他们是双字节字符的一部分。
       例如，在Shift-JIS编码中（一个常用的日文编码模式），0x81-0x9f之间和 0xe0-oxfc之间的值表示"这是一个双字节字符，下一个子节是这个字符的一部分。"这样的值被称作"leading bytes",他们都大于0x7f。跟随在一个leading byte子节后面的字节被称作"trail byte"。在DBCS中，trail byte可以是任意非0值。像SBCS一样，DBCS字符串的结束标志也是一个单字节表示的0。
      -双字节字符被用来表示东亚及中东的语言。
      ┌────────────────────────────┐
         Size                                   2Byte        2Byte      2Byte        1Byte
         Memory Content(Hex)     C4 E3       BA C3      A3 A1       00
         Charactor                               你            好             ！
      └────────────────────────────┘

    (3)Unicode。
      -Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符，因为它比单子节字符宽（使用了更多的存储空间）。
      -注意，Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。
      -Unicode被用在COM及Windows NT操作系统内部。
      ┌───────────────────────────────┐
          Size                                 2Byte       2Byte      2Byte     2Byte     2Byte
          Memory Content(Hex) FF FE       48 00      69 00     21 00     00 00
         Charactor                                             H              i                !
      └───────────────────────────────┘
       FF FE 标示 Unicode 采用的是小头方式. (little endian, 第二个(低位)字节在前)
       如果是FE FF 则表示为大头方式. ( big endian unicode ) H 的存储为 00 48;
　
       当使用char时，处理的是单字节字符。双字节字符也用char类型来进行操作（这是我们将会看到的关于双子节字符的很多奇怪的地方之一）。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。例如：

 wchar_t wch = L‘1‘; // 2 bytes, 0x0031 wchar_t *wsz = L"Hello"; // 12 bytes, 6 wide characters

2. C语言中, 没有字符串的数据类型，使用一个以NULL(‘\0‘)字符结尾的字符数组来保存字符串。

声明:

char a[100];   //或 char *p=(char *)malloc(100*sizeof(char));

操作:

//字符串初始化:char a[100]="Hello World!"; char *p="Hello World!";//赋值: (在定义时可以用"="进行初始化，但是以后不能用"="对C字符串进行赋值.)strcpy(a,"Ni Hao!");//获取字符串长度.(不包括 ‘\0’)strlen(a);printf("%s",a);

//转化: 字符串->数字int atoi(const char *nptr);  double atof(const char *nptr); long atol(const char *nptr);

字符串函数:
串长度: int strlen(char *str)
串拷贝: char *strcpy(char *targetStr,char *orignalStr);
串连接: char *strcat(char *str1,char *str2)
串比较: int strcmp(char *str1,char *str2) //比较的是字符的ASCII码, str1>str2 返回1，相等为0
串定位: char *strchr(char *str,char ch) //找到返回字符在字符串中的位置，否则返回-1；

C++字符串操作

//初始化:string myStr="Hello World!";//赋值:myStr="Ni Hao";//转化: char* -> string char a[]="Hello World!";string b;b=a; //转化: string -> char*string b="Ni Hao";char a[]="Hello World!";strcpy(a,b.c_str()); //string 对象不能自动转化为c字符串。需要利用成员函数c_str();

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > c/C++字符串操作