深入浮点数

2024-08-18 15:05:08 212人阅读

起点

浮点数的二进制表示

8.25 = 1000.01(bin)

a_na_n-1...a₂a₁a₀.b₁b₂...b_m-1b_m(bin) =

a_n2ⁿ+a_n-12^n-1+...+a₂2²+a₁2¹+a₀2⁰+b₁2^-1+b₂2^-2+...+b_m-12^-m+1+b_m2^-m

浮点数的存储方式

浮点数分为符号位，指数和尾数三个部分存储。

C/C++中float和double分别采用R32.24和R64.53存储（如图）

技术分享

换言之，浮点数是用以2为底的科学计数法表示的。

浮点科学计数法

以8.25 = 1000.01(bin)为例：将小数点左移至次高位，得到8.25 = 1.00001(bin) << 3 = 1.00001(bin) * 2^3 = 1.00001(bin) *2^11(bin)

PS. 0.25 = 0.01(bin) = 1.0(bin) << (-2) = 1.0(bin) * 2^(-2)

于是得到底数部分1.00001(bin)和指数部分11(bin)。

注意到

1)除0以外的任何浮点数底数最高位都为1，故可省去不写

2)指数总是signed int类型，为了适用2‘s Complement表示法（负数取反+1），对于float，我们将指数位加上(1 << 8) – 1 = 127来存储。这样数据的精确度就在(2^(-127), 2^127)之间。

于是 11(bin) + 127 = 10000010(bin)

技术分享

深入浮点数

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们