首页 > 代码库 > IEEE Floating Point Standard (IEEE754浮点数表示法标准)
IEEE Floating Point Standard (IEEE754浮点数表示法标准)
浮点数与定点数表示法是我们在计算机中常用的表示方法 所以必须要弄懂原理,特别是在FPGA里面,由于FPGA不能像在MCU一样直接用乘除法。
定点数
首先说一下简单的定点数,定点数是克服整数表示法不能表示实数的缺陷,那么我们就可以通过将实数乘上一个分数来实现,当然要是分数就是2^-i倍数,那么我们的定点数表示法就是精确的表示,但是很不幸我们自然界中的树并不是那么凑巧。所以定点数只能是近视表示实数,包括浮点法也是这样的。具体的实现就是将表示成2进制后,然后在左移k位,那么对于N为的定点数表示法中,就有N-1-K表示整数部分,低k位表示分数,最高位表示符号。
定点数表达法的缺点在于其形式过于僵硬,固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数。
浮点数
指数域中,对应于我们之前介绍的二进制科学计数法中的指数部分。其中单精度数为 8 位,双精度数为 11 位。以单精度数为例,8 位的指数为可以表达 0 到 255 之间的 255 个指数值。但是,指数可以为正数,也可以为负数。为了处理负指数的情况,实际的指数值按要求需要加上一个偏差(Bias)值作为保存在指数域中的值,单精度数的偏差值为 127,而双精度数的偏差值为 1023。比如,单精度的实际指数值 0 在指数域中将保存为 127;而保存在指数域中的 64 则表示实际的指数值 -63。 偏差的引入使得对于单精度数,实际可以表达的指数值的范围就变成 -127 到 128 之间(包含两端)。我们不久还将看到,实际的指数值 -127(保存为 全 0)以及 +128(保存为全 1)保留用作特殊值的处理。这样,实际可以表达的有效指数范围就在 -127 和 127 之间。在本文中,最小指数和最大指数分别用 emin 和 emax 来表达。
图例中的第三个域为尾数域,其中单精度数为 23 位长,双精度数为 52 位长。除了我们将要讲到的某些特殊值外,IEEE 标准要求浮点数必须是规范的。这意味着尾数的小数点左侧必须为 1,因此我们在保存尾数的时候,可以省略小数点前面这个 1,从而腾出一个二进制位来保存更多的尾数。这样我们实际上用 23 位长的尾数域表达了 24 位的尾数。比如对于单精度数而言,二进制的 1001.101(对应于十进制的 9.625)可以表达为 1.001101 × 23,所以实际保存在尾数域中的值为 00110100000000000000000,即去掉小数点左侧的 1,并用 0 在右侧补齐。
注:单精度浮点型所谓的7.2位精度就是指的是有效位的范围,因为单精度浮点可以表达的最大指数为 2^24 - 1 = 16,777,215这个数就是有效位的最大表示数字了,超过这个数的就要进行取舍。
参考:
http://www.cnblogs.com/cloudseawang/archive/2007/02/06/641652.html
IEEE 754 Floating-Point Format
IEEE 754 FLOATING POINT REPRESENTATION