首页 > 代码库 > 浮点数如何在内存中存储

浮点数如何在内存中存储

首先,将10进制的小数0.1转换为二进制,方法如下:

0.1*2==0.2  取0.2的整数部分, 结果为0.0

0.2*2==0.4  取0.4的整数部分, 结果为0.00

0.4*2==0.8  取0.8的整数部分, 结果为0.000

0.8*2==1.6  取1.6的整数部分, 结果为0.0001

0.6*2==1.2  取1.6的整数部分, 结果为0.00011

0.2*2==0.4  取0.4的整数部分, 结果为0.000110

最后这一步开始循环,因此0.1的二进制为数为: 0.0001100110011...是一个无限循环小数,二进制数据无法精确表示.


当然,有些小数是不循环的,可以用二进制数据精确表示,如10进制的0.5转换为转换为二进制:

0.5*2=1.0 取1.0的整数部分, 结果为0.1

0.0*2=0.0 取0.0的整数部分, 结果为0.10

再进行运算下去,可以认为0.5的二进制数据为0.10000...,也就是1.0,不是循环小数.


可见,按照上面的运算方法,运算结果不为0且循环的时候则是无限循环小数,运算结果为0,则不是循序小数.


下面是几个二进制小数和10进制小数对应关系:

0.1 == 0*2^1 + 1*2^-1 == 1/2 == 0.5 == 0*10^1 + 5*10^-1

0.01 == 0*2^1 + 0*2^-1 + 1*2^-2 == 0.25 == 0*10^1 + 2*10^-1 + 5*10^-2

0.001 == 0*2^1 + 0*2^-1 + 0*2^-2 + 1*2^-3 == 1/8 == 0.125 == 0*10^1 + 1*10^-1 + 2*10^-2 + 5*10^-3

0.0001 ==  0*2^1 + 0*2^-1 + 0*2^-2 + 0*2^-3 + 1*10^-4 == 1*2^-4 == 1/16 == 0.0625 ==  0*10^1 + 0*10^-1 + 6*10^-2 + 2*10^-3 + 5*10^-4

... ...

从这几个对应关系可以看出二进制和十进制本质是一样的,用科学计数法来表示: 1*2^-m+...1*2^-n


那么,小数如何在内存中存储呢? 以float fpi=0.1415926为例说明

第一步: 将十进制的0.141593转换为二进制数为: 0.001000011111101101001101000100...已经舍去了一部分

第二步: 将第一步的二进制小数点向右移动3位: 1.000011111101101001101000100 * 2^-3

第三步: 计算阶码,提取第二步中的指数-3,然后计算阶码: -3 + 127 == 124,124(小于127,说明是一个负数)的二进制数为: 1111 100,用8位表示就是0 1111 100

第四步: 获取尾数,将第二步中的1.000011111101101001101000100-1=000011111101101001101000100

第五步: 将第四步的获取的结果舍掉多余的部分,仅保留高23位: 0000111111011010011010

第六步: 将第3,5步的结果拼接到一块,并加上符号位(正号0): (符号)0 (阶码)01111100 (尾数)0000111111011010011010

浮点数0.1415926在内存中存储的二进制数为: 0 01111100 0000111111011010011010


如果小数带整数部分,如3.1415926,转换过程差不过:

1.分别将整数和小数转换为二进制数: 011.001000011111101101001101000100

2.将第1步中的二进制数小数点向左移动1位: 1.1001000011111101101001101000100

3.计算阶码,提取第2步中的指数+2,然后计算阶码: +2 + 127 == 128,128(大于127,说明是一个正数)的二进制数为: 10000000,共8位(阶码是一个正数,可省略符号位)

4.获取尾数,将第2步中的1.1001000011111101101001101000100-1=1001000011111101101001101000100

5.将第4步的获取的结果舍掉多余的部分,仅保留高23位: 10010010000111111011010

6.将第3,5步的结果拼接到一块,并加上符号位(正号0): (符号)0 (阶码)10000001 (尾数)10010010000111111011010

浮点数3.1415926在内存中存储的二进制数为: 0 10000000 10010010000111111011010


通过上面的例子,说明一下浮点数如何在内存中存储

C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float/double运算,将浮点数转换为二进制的科学计数法: V = (-1)s * M * 2^E

(-1)s 表示符号位,当s=0,V为正数;当s=1,V为负数.

M表示有效数字,1<=M<2.

E表示指数位


float和double类型,s,M,E的位数为:

符号位s 阶码M   尾数M   长度  

float(32bits)      1        8     23

double(64bits)     1       11     52


尾数M的的规则

1.必须保证1≤M<2,也就是说,M可以写成1.xxxxxx的形式,其中xxxxxx表示小数部分.在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分

等到读取的时候,再把第一位的1加上去.这样做的好处是节省1位有效数字.以32位浮点数为例,留给 M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字.

2.尾数必须用原码表示,无论浮点数是正数还是负数.


注:

1985年IEEE(Institute of Electrical and Electronics Engineers)提出了IEEE754标准.该标准规定基数为2,阶码E用移码表示,尾数M用原码表示,根据二进制的规格化方法,最高数字位总是1,该标准将这个1缺省存储,使得尾数表示范围比实际存储的多一位.


阶码的规则

阶码的本质上是无符号整数(float 8位;double 11位),但它仍然可以表示负数,其规则为:

对于float来说,阶码=E-127.

对于double来说,阶码=E-1023.

这样,如果E为正数,则阶码>127; 如果E为负数,则阶码<127. 然后,指数E还可以再分成三种情况:

(1)E不全为0或不全为1.这时,浮点数就采用上面的规则表示,即指数E的计算值减去127(或1023),得到真实 值,再将有效数字M前加上第一位的1. 

(2)E全为0.这时,浮点数的指数E等于1-127(或者1-1023),有效数字M不再加上第一位的1,而是还原为 0.xxxxxx的小数.这样做是为了表示±0,以及接近于0的很小的数字.

(3)E全为1.这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);如果有效数字M不全为0,表示 这个数不是一个数(NaN).


本文出自 “零一小筑” 博客,请务必保留此出处http://jetyi.blog.51cto.com/1460128/1906502

浮点数如何在内存中存储