您的位置：首页 > 其它

浮点数比较

2015-11-17 15:41 260 查看

浮点数据在内存中表示是有误差的，所以一般不直接进行比较。

用10进制小数不能精确表示某些三进制小数0.1(3)=0.33333333333……(10)

同理，用二进制小数也不能精确表示某些10进制小数。

float类型

if(x<0.000001&&x>-0.000001)

前一段时间读了一下林锐博士的《高质量 C/C++ 编程指南》，其中有一个比较经典的问题。请写出 float x 与“零值”比较的 if 语句？

当时只知道不能直接用 float 类型的值与 0 进行“ == ”或“ != ”比较，但不知道该具体怎么写这个 if 语句。看过答案才知道，应该设法转化成“ >= ”或“ <= ”，即：

const float EPSINON = 0.00001;

if((x >= - EPSINON) && (x <= EPSINON))

看了答案后觉得很有道理，然后就记了答案，算是取得了“真经”了。

最近，我和项目组同事讨论问题的时候，正好涉及到这个问题。我马上想到自己的“真经”，炫耀地说出了标准答案，可同事问了句为什么，为什么是 0.00001 ？我马上哑炮了。终于体会那句话，凡事认真追问起来，都不简单。

事情要知其然，还要知其所以然。马上编了个小程序验证了一把。

#include<stdio.h>

int main()

{

float f = 1.0;

float f1 = f/3;// f1 = 1/3

float f2 = f1*3; // f2 = 1;

float f_result = f1 - f2/3; // f_result = 0 ???

if(0.0f == f_result)

{

printf("f_result == 0/n");

}

else

{

printf("f_result != 0/n");

}

return 0;

}

通过上述程序，可以明确得到答案，但具体为什么如此，还需要从 C 语言中 float 类型变量的编码格式说起。

浮点数表示形如 V=x * 2^y 的有理数进行编码， IEEE 标准 754 仔细制定了浮点数及其运算的标准。

十进制的 12.34 可以这样表示： 1*10^1 + 2*10^0 + 3*10^-1 + 4*10^-2 。同样地，二进制的 101.11 可以这样表示： 1*2^2 + 1*2^0 + 1*2^-1 +1*2^-2 。注意而今之中形如 0.111…1 正好是小于 1 的数。假定只用有限长度的编码，那么十进制是不能准确表示想 1/3 、 5/7 这样的数的，类似的，小数的二进制表示法只能表示那些能够被写成 x * 2^y 的数，其他的只能用近似数来表示。

IEEE 浮点标准用 V=(-1)^s * M * 2^E 的形式来表示一个数：

（ 1 ）符号（ sign ） s 决定数是负数（ s=1 ）还是正数（ s=0 ），而对 0 的符号位作为特殊情况处理。

（ 2 ）有效数（ significant ） M 是一个二进制小数。

（ 3 ）指数（ exponent ） E 是 2 的幂（可能是负数），他的作用是对浮点数的加权。

一个浮点数的位表示按上述情形划分为 3 个域。

标准 C 语言中，单精度 float 浮点格式的符号位 =1 ，有效位 =23 ，指数位=8 ，产生一个 32 位的表示。双精度 double 浮点格式的符号位 =1 ，有效位 =52 ，指数位 =11 ，产生一个 64 位的表示。

根据指数位的值，被编码的值可以分为三种不同的情况，即，规格化值、非规格化值、特殊数值。当指数的为不全为 0 且不全为 1 时，属于规格化值；当指数位全为 0 时，属于非规格化值；当指数位全为 1 时，属于特殊数值。下面主要了解一下后两者情况。

非规格化值有两个目的。首先提供了一种表示数值 0 的方法当小数位也全为 0 时，可以根据符号位的不同表示 +0.0 和 -0.0 。另外一个功能是用来表示那些非常接近 0.0 的数，使用逐渐下溢出（ gradual underflow ）的方法实现这个属性。特殊数值当指数位全为 1 ，而小数位全为 0 时，可以表示正无穷大和负无穷大。当小数位为非零时，结果值被称为 NaN 。

因为表示方法限制了浮点数的范围和精度，所以浮点运算只能近似地表示实数运算。系统需要使用“最接近”匹配值的值保存浮点值，这就是舍入（ rounding ）运算的任务。 IEEE 规定了四种舍入方式，默认的方式是向偶数舍入，也叫向最接近的值舍入。

浮点数的表示是不精确的，不能直接比较两个数是否完全相等，一般都是在允许的某个范围内认为像个浮点数相等，如有两个浮点数a,b，允许的误差范围为1e-6，则abs(a-b)<=1e-6，即可认为a和b相等。还有一种方法就是扩大再取整，比如a=5.23,b=5.23,直接比较 a==b一般为false，但是a和b都扩大一百倍，然后强制转换为int类型，再用==比较就可以了

float型变量和“零值”比较的方法：

const float EPSINON = 0.000001;

if ((x >= - EPSINON) && (x <= EPSINON))

浮点型变量并不精确，其中EPSINON是允许的误差（即精度），所以不可将float变量用“==”或“!=”与数字比较，应该设法转化成“>=”或“<=”形式。如果写成if （x == 0.0），则是错误的。

因为1.0在计算机中可能存为0.999999或1.00001等，很难恰好是1.0

float与double的范围和精度

1. 范围

float和double的范围是由指数的位数来决定的。

float的指数位有8位，而double的指数位有11位，分布如下：

float：

1bit（符号位） 8bits（指数位） 23bits（尾数位）

double：

1bit（符号位） 11bits（指数位） 52bits（尾数位）

于是，float的指数范围为-127~+128，而double的指数范围为-1023~+1024，并且指数位是按补码的形式来划分的。

其中负指数决定了浮点数所能表达的绝对值最小的非零数；而正指数决定了浮点数所能表达的绝对值最大的数，也即决定了浮点数的取值范围。

float的范围为-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；double的范围为-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

2. 精度

float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响。

float：2^23 = 8388608，一共七位，这意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字；

double：2^52 = 4503599627370496，一共16位，同理，double的精度为15~16位。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航