首页 > 代码库 > C++(一):数据类型

C++(一):数据类型

计算机处理的对象是数据,而数据是以某种特定的形式存在的(例如整数、浮点数、字符等形式)。不同的数据之间往往还存在某些联系(例如由若干个整数组成一个整数数组)。数据结构指的是数据的组织形式。例如,数组就是一种数据结构。不同的计算机语言所允许使用的数据结构是不同的。处理同一类问题,如果数据结构不同,算法也会不同。例如,对10个整数排序和对包含10个元素的整型数组排序的算法是不同的。




图1.1  C++可以使用的数据类型

C++的数据包括常量与变量,常量与变量都具有类型。由以上这些数据类型还可以构成更复杂的数据结构。例如利用指针和结构体类型可以构成表、树、栈等复杂的数据结构。

表1.1  数值型和字符型数据的字节数和数值范围




C++并没有统一规定各类数据的精度、数值范围和在内存中所占的字节数,各C++编译系统根据自己的情况作出安排。表1.1列出了Visual C++数值型和字符型数据的情况。

几点说明:
1) 整型数据分为长整型(long int)、一般整型(int)和短整型(short int)。在int前面加long和short分别表示长整型和短整型。

2) 整型数据的存储方式为按二进制数形式存储,例如十进制整数85的二进制形式为1010101,则在内存中的存储形式如下图所示。
0000000001010101
 
3) 在整型符号int和字符型符号char的前面,可以加修饰符signed(表示“有符号”)或unsigned(表示“无符号”)。如果指定为signed,则数值以补码形式存放,存储单元中的最高位(bit)用来表示数值的符号。如果指定为unsigned,则数值没有符号,全部二进制位都用来表示数值本身。例如短整型数据占两个字节 ,见图2.2。


图1.2

有符号时,能存储的最大值为215-1,即32767,最小值为-32768。无符号时,能存储的最大值为216-1,即65535,最小值为0。有些数据是没有负值的,可以使用unsigned,它存储正数的范围比用signed时要大一倍。

4) 浮点型(又称实型)数据分为单精度(float)、双精度(double)和长双精度(long double)3种,在Visual C++ 6.0中,对float提供6位有效数字,对double提供15位有效数字,并且float和double的数值范围不同。对float分配4个字节,对double和long double分配8个字节。


5) 表中类型标识符一栏中,方括号[ ]包含的部分可以省写,如short和short int等效,unsigned int和unsigned等效。

常量的值是不能改变的,一般从其字面形式即可判别是否为常量。常量包括两大类,即数值型常量(即常数)和字符型常量。如12, 0, -3为整型常量,4.6, -1.23为实型常量,包含在两个单撇号之间的字符为字符常量,如′a′, ′x′。这种从字面形式即可识别的常量称为“字面常量”或“直接常量”。

数值常量

数值常量就是通常所说的常数。在C++中,数值常量是区分类型的,从字面形式即可识别其类型。

整型常量(整数)的类型
在上一节中已知道:整型数据可分为int, short int,long int以及unsigned int, unsigned short, unsigned long等类别。整型常量也分为以上类别。为什么将数值常量区分为不同的类别呢?因为在进行赋值或函数的参数虚实结合时要求数据类型匹配。

那么,一个整型常量怎样从字面上区分为以上的类别呢?
  1. 一个整数,如果其值在-32768~+32767范围内,认为它是short int型,它可以赋值给short int型?int型和long int型变量。
  2. 一个整数,如果其值超过了上述范围,而在-2147483648~+2147483647范围内,则认为它是long int型,可以将它赋值给一个int或long int型变量。
  3. 如果某一计算机系统的C++版本(例如Visual C++)确定int与long int型数据在内存中占据的长度相同,则它们能够表示的数值的范围相同。因此,一个int型的常量也同时是一个long int型常量,可以赋给int型或long int型变量。
  4. 常量无unsigned型。但一个非负值的整数可以赋值给unsigned整型变量,只要它的范围不超过变量的取值范围即可。

一个整型常量可以用3种不同的方式表示:
  1. 十进制整数。如1357, -432, 0等。在一个整型常量后面加一个字母l或L,则认为是long int型常量。例如123L, 421L, 0L等,这往往用于函数调用中。如果函数的形参为long int,则要求实参也为long int型,此时用123作实参不行,而要用123L作实参。
  2. 八进制整数。在常数的开头加一个数字0,就表示这是以八进制数形式表示的常数。如020表示这是八进制数20,即(20)8,它相当于十进制数16。
  3. 十六进制整数。在常数的开头加一个数字0和一个英文字母X(或x),就表示这是以十六进制数形式表示的常数。如0X20表示这是十六进制数20,即(20)16,它相当于十进制数32。
浮点数的表示方法

一个浮点数可以用两种不同的方式表示:
1) 十进制小数形式。如21.456, -7.98等。它一般由整数部分和小数部分组成,可以省略其中之一(如78.或.06, .0),但不能二者皆省略。C++编译系统把用这种形式表示的浮点数一律按双精度常量处理,在内存中占8个字节。如果在实数的数字之后加字母F或f,表示此数为单精度浮点数,如1234F, -43f,占4个字节。如果加字母L或l,表示此数为长双精度数(long double),在GCC中占12个字节,在Visual C++ 6.0中占8个字节。

2) 指数形式(即浮点形式)。一个浮点数可以写成指数形式,如3.14159可以表示为0.314159×101, 3.14159×100, 31.4159×10-1, 314.159×10-2等形式。在程序中应表示为:0.314159e1, 3.14159e0, 31.4159e-1, 314.159e-2,用字母e表示其后的数是以10为底的幂,如e12表示1012。其一般形式为:
    数符  数字部分  指数部分

上面各数据中的0.314159, 3.14159, 31.4159, 314.159 等就是其中的数字部分。可以看到:由于指数部分的存在,使得同一个浮点数可以用不同的指数形式来表示,数字部分中小数点的位置是浮动的。例如:
    a=0.314159e1;
    a=3.14159e0;
    a=31.4159e-1;
    a=314.159e-2;
以上4个赋值语句中,用了不同形式的浮点数,但其作用是相同的。

在程序中不论把浮点数写成小数形式还是指数形式,在内存中都是以指数形式(即浮点形式)存储的。例如不论在程序中写成314.159或314.159e0, 31.4159e1, 3.14159e2, 0.314159e3等形式,在内存中都是以规范化的指数形式存放,如图2.3所示。


图 1.3
 

数字部分必须小于1,同时,小数点后面第一个数字必须是一个非0数字,例如不能是0.0314159。因此314.159和314.159e0, 31.4159e1, 3.14159e2, 0.314159e3在内存中表示成0.314159×103。存储单元分为两部分,一部分用来存放数字部分,一部分用来存放指数部分。为便于理解,在图2.3中是用十进制表示的,实际上在存储单元中是用二进制数来表示小数部分,用2的幂次来表示指数部分的。

对于以指数形式表示的数值常量,也都作为双精度常量处理。

字符常量

1) 普通的字符常量
用单撇号括起来的一个字符就是字符型常量。如‘a‘, ‘#‘, ‘%‘, ‘D‘都是合法的字符常量,在内存中占一个字节。注意:
  • 字符常量只能包括一个字符,如‘AB‘ 是不合法的。
  • 字符常量区分大小写字母,如‘A‘和‘a‘是两个不同的字符常量。
  • 撇号(‘)是定界符,而不属于字符常量的一部分。如cout<<‘a‘;输出的是一个字母"a",而不是3个字符"‘a‘ "。

2) 转义字符常量
除了以上形式的字符常量外,C++还允许用一种特殊形式的字符常量,就是以 "\"开头的字符序列。例如,‘\n‘代表一个"换行"符。"cout<<‘\n‘; " 将输出一个换行,其作用与"cout<<endl; " 相同。这种"控制字符",在屏幕上是不能显示的。在程序中也无法用一个一般形式的字符表示,只能采用特殊形式来表示。

3) 字符数据在内存中的存储形式及其使用方法
将一个字符常量存放到内存单元时,实际上并不是把该字符本身放到内存单元中去,而是将该字符相应的ASCII代码放到存储单元中。如果字符变量c1的值为‘a‘,c2的值为‘b‘,则在变量中存放的是‘a‘的ASCII码97,‘b‘ 的ASCII码98,如图2.4(a)所示,实际上在内存中是以二进制形式存放的,如图2.4(b)所示。

 

图 1.4

既然字符数据是以ASCII码存储的,它的存储形式就与整数的存储形式类似。这样,在C++中字符型数据和整型数据之间就可以通用。一个字符数据可以赋给一个整型变量,反之,一个整型数据也可以赋给一个字符变量。也可以对字符数据进行算术运算,此时相当于对它们的ASCII码进行算术运算。

【例1.1】将字符赋给整型变量。

#include <iostream>
using namespace std;
int main( )
{
  int  i, j;  //i和j是整型变量
  i='A'; //将一个字符常量赋给整型变量i
  j='B'; //将一个字符常量赋给整型变量j
  cout<<i<<' '<<j<<'\n';  //输出整型变量i和j的值,'\n' 是换行符
  return 0;
}
执行时输出
   65 66
i和j被指定为整型变量。但在第5和第6行中,将字符‘A‘和‘B‘分别赋给i和j,它的作用相当于以下两个赋值语句:
   i=65;j=66;
因为‘A‘和‘B‘的ASCII码为65和66。在程序的第5和第6行是把65和66直接存放到i和j的内存单元中。因此输出65和66。

可以看到:在一定条件下,字符型数据和整型数据是可以通用的。但是应注意字符数据只占一个字节,它只能存放0~255范围内的整数。

【例1.2】字符数据与整数进行算术运算。下面程序的作用是将小写字母转换为大写字母。

<span style="background-color: rgb(255, 255, 255);">#include <iostream>
using namespace std;
int main( )
{
  char c1,c2;
  c1='a';
  c2='b';
  c1=c1-32;
  c2=c2-32;
  cout<<c1<<' '<<c2<<endl;
  return 0;
}</span>
运行结果为
   A B
‘a‘的ASCII码为97,而‘A‘的ASCII码为65,‘b‘为98,‘B‘为66。从ASCII代码表中可以看到每一个小写字母比它相应的大写字母的ASCII代码大32。C++符数据与数值直接进行算术运算,‘a‘-32得到整数65,‘b‘-32得到整数66。将65和66存放在c1,c2中,由于c1,c2是字符变量,因此用cout输出c1,c2时,得到字符A和B(A的ASCII码为65,B的ASCII码为66)。

字符串常量

用双撇号括起来的部分就是字符串常量,如"abc","Hello!","a+b","Li ping"都是字符串常量。字符串常量"abc"在内存中占4个字节(而不是3个字节),见图2.5。

 

图 1.5

编译系统会在字符串最后自动加一个‘\0‘作为字符串结束标志。但‘\0‘并不是字符串的一部分,它只作为字符串的结束标志。如
   cout<<"abc"<<endl;
输出3个字符abc,而不包括‘\0‘。

注意: "a"和‘a‘代表不同的含义,"a"是字符串常量,‘a‘ 是字符常量。前者占两个字节,后者占1个字节。请分析下面的程序片段:
    char c;  //定义一个字符变量
    c=‘a‘;  //正确
    c="a";  //错误,c只能容纳一个字符

请思考:字符串常量"abc\n"包含几个字符?不是5个而是4个字符,其中"\n"是一个转义字符。但它在内存中占5个字节(包括一个"\0"字符) 。编译系统遇到"\"时就会把它认作转义字符的标志,把它和其后的字符一起作为一个转义字符。

如果"\"后面的字符不能与"\"组成一个合法的转义字符(如"\c"),则在编译时显示出错信息。如果希望将"\"字符也作为字符串中的一个字符,则应写为"abc\\n",此时字符包括5个字符,即a,b,c,\,n。如果有以下输出语句:
    cout<<"abc\\\n"<<endl;
则会输出:
    abc\  (然后换行)
同理执行
    cout<<"I say \"Thank you!\"\n";
的输出是:
    I say "Thank you!"

如果在一个字符串中最后一个字符为"\",则表示它是续行符,下一行的字符是该字符串的一部分,且在两行字符串间无空格。如
    cout<<"We must study C\  //本行最后的"\"后面的空格和换行均不起作用
   ++ hard!";  //本行的字符紧连在上一行最后的"\"前面字符之后
则输出:
    We must study C++ hard!

符号常量

为了编程和阅读的方便,在C++程序设计中,常用一个符号名代表一个常量,称为符号常量,即以标识符形式出现的常量。

【例1.3】符号常量的使用。

#include <iostream>
using namespace std;
#define PRICE 30  //注意这不是语句,末尾不要加分号
int main ( )
{
  int num,total;
  num=10;
  total=num * PRICE;
  cout<<"total="<<total<<endl;
  return 0;
}
程序中用预处理命令#define指定PRICE在本程序单位中代表常量30,此后凡在本程序单位中出现的PRICE都代表30,可以和常量一样进行运算,程序运行结果为
    total=300
请注意符号常量虽然有名字,但它不是变量。它的值在其作用域(在本例中为主函数)内是不能改变的,也不能被赋值。如用赋值语句"PRICE=40;"给PRICE赋值是错误的。 使用符号常量的好处是:含义清楚,在需要改变一个常量时能做到"一改全改"。 如:
    #define PRICE 35

其实在前面的例子中已经多次用到了变量。在程序运行期间其值可以改变的量称为变量。一个变量应该有一个名字,并在内存中占据一定的存储单元,在该存储单元中存放变量的值。请注意区分变量名和变量值这两个不同的概念,见图2.6。


图1.6

变量名规则

先介绍标识符的概念。和其他高级语言一样,用来标识变量、符号常量、函数、数组、类型等实体名字的有效字符序列称为标识符(identifier)。简单地说,标识符就是一个名字。变量名是标识符的一种,变量的名字必须遵循标识符的命名规则。

C++规定标识符只能由字母、数字和下划线3种字符组成,且第一个字符必须为字母或下划线。下面列出的是合法的标识符,也是合法的变量名:
sum, average, total, day, month, Student_name, tan, BASIC, li_ling

下面是不合法的标识符和变量名:
M.D.John, $123, #33, 3G64, Ling li, C++, Zhang-ling, U.S.A.

注意:在C++中,大写字母和小写字母被认为是两个不同的字符。因此,sum和SUM是两个不同的变量名。一般地,变量名用小写字母表示,与人们日常习惯一致,以增加可读性。应注意变量名不能与C++的关键字、系统函数名和类名相同。在国外软件开发工作中,常习惯在变量前面加一个字母以表示该变量的类型,如iCount表示这是一个整型变量,cSex表示这是一个字符型变量。

C++没有规定标识符的长度(字符个数),但各个具体的C编译系统都有自己的规定。有的系统取32个字符,超过的字符不被识别。

定义变量

在C++语言中,要求对所有用到的变量作强制定义,也就是必须“先定义,后使用”,如例2.2和例2.3那样。定义变量的一般形式是:
    变量类型  变量名表列;
变量名表列指的是一个或多个变量名的序列。如:
    float a,b,c,d,e;
定义a,b,c,d,e为单精度型变量,注意各变量间以逗号分隔,最后是分号。可以在定义变量时指定它的初值。如:
    float a=83.5, b, c=64.5, d=81.2, e;  //对变量a,c,d指定了初值,b和d未指定初值

C语言要求变量的定义应该放在所有的执行语句之前,而C++则放松了限制,只要求在第一次使用该变量之前进行定义即可。也就是说,它可以出现在语句的中间,如:
    int a;  //定义变量a(在使用a之前定义)
    a=3;  //执行语句,对a赋值
    float b;  //定义变量b(在使用b之前定义)
    b=4.67;  //执行语句,对b赋值
    char c;  //定义变量c(在使用c之前定义)
    c=‘A‘;  //执行语句 ,对c赋值

C++要求对变量作强制定义的目的是:
1) 凡未被事先定义的,不作为变量名,这就能保证程序中变量名使用得正确。例如,如果在声明部分写了
    int student;
而在执行语句中错写成statent。如
    statent=30;
在编译时检查出statent未经定义,作为错误处理。输出“变量statent未经声明”的信息,便于用户发现错误,避免变量名使用时出错。

2) 每一个变量被指定为一确定类型,在编译时就能为其分配相应的存储单元。如指定a和b为int型,一般的编译系统对其各分配4个字节,并按整数方式存储数据。

3) 指定每一变量属于一个特定的类型,这就便于在编译时,据此检查该变量所进行的运算是否合法。例如,整型变量a和b,可以进行求余运算:
    a%b
%是“求余”,得到a/b的余数。如果将a和b指定为实型变量,则不允许进行“求余”运算,在编译时会给出有关的出错信息。

为变量赋初值

允许在定义变量时对它赋予一个初值,这称为变量初始化。初值可以是常量,也可以是一个有确定值的表达式。如
    float a, b=5.78*3.5, c=2*sin(2.0);
表示定义了a,b,c为单精度浮点型变量,对b初始化为5.78*3, 对c初始化为2*sin(2.0),在编译连接后,从标准函数库得到正弦函数sin(2.0)的值,因此变量c有确定的初值。变量a未初始化。

如果对变量未赋初值,则该变量的初值是一个不可预测的值,即该存储单元中当时的内容是不知道的。例如,若未对a和b赋值,执行输出语句
    cout<<a<<" "<<b<<" "<<c<<endl;
输出结果可能为
    1.48544e-38 15 1.81858  (各次运行情况可能不同)
初始化不是在编译阶段完成的(只有在第4章中介绍的静态存储变量和外部变量的初始化是在编译阶段完成的),而是在程序运行时执行本函数时赋予初值的,相当于执行一个赋值语句。例如:
    int a=3;
相当于以下两个语句 :
    int a;  // 指定a为整型变量
    a=3;  //  赋值语句,将3赋给a
对多个变量赋予同一初值,必须分别指定,不能写成
    float a=b=c=4.5;
而应写成
    float a=4.5, b=4.5, c=4.5;

    float a, b, c=4.5;
    a=b=c;

C++常变量

在定义变量时,如果加上关键字const,则变量的值在程序运行期间不能改变,这种变量称为常变量(constant variable)。例如:
    const int a=3;  //用const来声明这种变量的值不能改变,指定其值始终为3

在定义常变量时必须同时对它初始化(即指定其值),此后它的值不能再改变。常变量不能出现在赋值号的左边。例如上面一行不能写成:
    const int a;
    a=3;  //常变量不能被赋值
可以用表达式对常变量初始化,如
    const int b=3+6, c=3*cos(1.5);  //b的值被指定为9,c的值被指定为3*cos(1.5)

但应注意,由于使用了系统标准数学函数cos,必须将包含该函数有关的信息的头文件“cmath”(或math.h)包含到本程序单位中来,可以在本程序单位的开头加上以下#include命令:
    #include <cmath>

    #include <math.h>

变量的值应该是可以变化的,怎么值是固定的量也称变量呢?其实,从计算机实现的角度看,变量的特征是存在一个以变量名命名的存储单元,在一般情况下,存储单元中的内容是可以变化的。对常变量来说,无非在此变量的基础上加上一个限定:存储单元中的值不允许变化。因此常变量又称为只读变量(read-only-variable)。

请区别用#define命令定义的符号常量和用const定义的常变量。符号常量只是用一个符号代替一个字符串,在预编译时把所有符号常量替换为所指定的字符串,它没有类型,在内存中并不存在以符号常量命名的存储单元。而常变量具有变量的特征,它具有类型,在内存中存在着以它命名的存储单元,可以用sizeof运算符测出其长度。与一般变量惟一的不同是指定变量的值不能改变。用#define命令定义符号常量是C语言所采用的方法,C++把它保留下来是为了和C兼容。C++的程序员一般喜欢用const定义常变量。虽然二者实现的方法不同,但从使用的角度看,都可以认为用了一个标识符代表了一个常量。




C++(一):数据类型