首页 > 代码库 > 浮点数如何在内存中存储
浮点数如何在内存中存储
首先,将10进制的小数0.1转换为二进制,方法如下:
0.1*2==0.2 取0.2的整数部分, 结果为0.0
0.2*2==0.4 取0.4的整数部分, 结果为0.00
0.4*2==0.8 取0.8的整数部分, 结果为0.000
0.8*2==1.6 取1.6的整数部分, 结果为0.0001
0.6*2==1.2 取1.6的整数部分, 结果为0.00011
0.2*2==0.4 取0.4的整数部分, 结果为0.000110
最后这一步开始循环,因此0.1的二进制为数为: 0.0001100110011...是一个无限循环小数,二进制数据无法精确表示.
当然,有些小数是不循环的,可以用二进制数据精确表示,如10进制的0.5转换为转换为二进制:
0.5*2=1.0 取1.0的整数部分, 结果为0.1
0.0*2=0.0 取0.0的整数部分, 结果为0.10
再进行运算下去,可以认为0.5的二进制数据为0.10000...,也就是1.0,不是循环小数.
可见,按照上面的运算方法,运算结果不为0且循环的时候则是无限循环小数,运算结果为0,则不是循序小数.
下面是几个二进制小数和10进制小数对应关系:
0.1 == 0*2^1 + 1*2^-1 == 1/2 == 0.5 == 0*10^1 + 5*10^-1
0.01 == 0*2^1 + 0*2^-1 + 1*2^-2 == 0.25 == 0*10^1 + 2*10^-1 + 5*10^-2
0.001 == 0*2^1 + 0*2^-1 + 0*2^-2 + 1*2^-3 == 1/8 == 0.125 == 0*10^1 + 1*10^-1 + 2*10^-2 + 5*10^-3
0.0001 == 0*2^1 + 0*2^-1 + 0*2^-2 + 0*2^-3 + 1*10^-4 == 1*2^-4 == 1/16 == 0.0625 == 0*10^1 + 0*10^-1 + 6*10^-2 + 2*10^-3 + 5*10^-4
... ...
从这几个对应关系可以看出二进制和十进制本质是一样的,用科学计数法来表示: 1*2^-m+...1*2^-n
那么,小数如何在内存中存储呢? 以float fpi=0.1415926为例说明
第一步: 将十进制的0.141593转换为二进制数为: 0.001000011111101101001101000100...已经舍去了一部分
第二步: 将第一步的二进制小数点向右移动3位: 1.000011111101101001101000100 * 2^-3
第三步: 计算阶码,提取第二步中的指数-3,然后计算阶码: -3 + 127 == 124,124(小于127,说明是一个负数)的二进制数为: 1111 100,用8位表示就是0 1111 100
第四步: 获取尾数,将第二步中的1.000011111101101001101000100-1=000011111101101001101000100
第五步: 将第四步的获取的结果舍掉多余的部分,仅保留高23位: 0000111111011010011010
第六步: 将第3,5步的结果拼接到一块,并加上符号位(正号0): (符号)0 (阶码)01111100 (尾数)0000111111011010011010
浮点数0.1415926在内存中存储的二进制数为: 0 01111100 0000111111011010011010
如果小数带整数部分,如3.1415926,转换过程差不过:
1.分别将整数和小数转换为二进制数: 011.001000011111101101001101000100
2.将第1步中的二进制数小数点向左移动1位: 1.1001000011111101101001101000100
3.计算阶码,提取第2步中的指数+2,然后计算阶码: +2 + 127 == 128,128(大于127,说明是一个正数)的二进制数为: 10000000,共8位(阶码是一个正数,可省略符号位)
4.获取尾数,将第2步中的1.1001000011111101101001101000100-1=1001000011111101101001101000100
5.将第4步的获取的结果舍掉多余的部分,仅保留高23位: 10010010000111111011010
6.将第3,5步的结果拼接到一块,并加上符号位(正号0): (符号)0 (阶码)10000001 (尾数)10010010000111111011010
浮点数3.1415926在内存中存储的二进制数为: 0 10000000 10010010000111111011010
通过上面的例子,说明一下浮点数如何在内存中存储
C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float/double运算,将浮点数转换为二进制的科学计数法: V = (-1)s * M * 2^E
(-1)s 表示符号位,当s=0,V为正数;当s=1,V为负数.
M表示有效数字,1<=M<2.
E表示指数位
float和double类型,s,M,E的位数为:
符号位s 阶码M 尾数M 长度
float(32bits) 1 8 23
double(64bits) 1 11 52
尾数M的的规则
1.必须保证1≤M<2,也就是说,M可以写成1.xxxxxx的形式,其中xxxxxx表示小数部分.在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分
等到读取的时候,再把第一位的1加上去.这样做的好处是节省1位有效数字.以32位浮点数为例,留给 M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字.
2.尾数必须用原码表示,无论浮点数是正数还是负数.
注:
1985年IEEE(Institute of Electrical and Electronics Engineers)提出了IEEE754标准.该标准规定基数为2,阶码E用移码表示,尾数M用原码表示,根据二进制的规格化方法,最高数字位总是1,该标准将这个1缺省存储,使得尾数表示范围比实际存储的多一位.
阶码的规则
阶码的本质上是无符号整数(float 8位;double 11位),但它仍然可以表示负数,其规则为:
对于float来说,阶码=E-127.
对于double来说,阶码=E-1023.
这样,如果E为正数,则阶码>127; 如果E为负数,则阶码<127. 然后,指数E还可以再分成三种情况:
(1)E不全为0或不全为1.这时,浮点数就采用上面的规则表示,即指数E的计算值减去127(或1023),得到真实 值,再将有效数字M前加上第一位的1.
(2)E全为0.这时,浮点数的指数E等于1-127(或者1-1023),有效数字M不再加上第一位的1,而是还原为 0.xxxxxx的小数.这样做是为了表示±0,以及接近于0的很小的数字.
(3)E全为1.这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);如果有效数字M不全为0,表示 这个数不是一个数(NaN).
本文出自 “零一小筑” 博客,请务必保留此出处http://jetyi.blog.51cto.com/1460128/1906502
浮点数如何在内存中存储