浮点数比较
2015-11-17 15:41
260 查看
浮点数据在内存中表示是有误差的,所以一般不直接进行比较。
用10进制小数不能精确表示某些三进制小数0.1(3)=0.33333333333……(10)
同理,用二进制小数也不能精确表示某些10进制小数。
float类型
if(x<0.000001&&x>-0.000001)
前一段时间读了一下林锐博士的《高质量 C/C++ 编程指南》,其中有一个比较经典的问题。请写出 float x 与“零值”比较的 if 语句?
当时只知道不能直接用 float 类型的值与 0 进行“ == ”或“ != ”比较,但不知道该具体怎么写这个 if 语句。看过答案才知道,应该设法转化成“ >= ”或“ <= ”,即:
const float EPSINON = 0.00001;
if((x >= - EPSINON) && (x <= EPSINON))
看了答案后觉得很有道理,然后就记了答案,算是取得了“真经”了。
最近,我和项目组同事讨论问题的时候,正好涉及到这个问题。我马上想到自己的“真经”,炫耀地说出了标准答案,可同事问了句为什么,为什么是 0.00001 ?我马上哑炮了。终于体会那句话,凡事认真追问起来,都不简单。
事情要知其然,还要知其所以然。马上编了个小程序验证了一把。
#include<stdio.h>
int main()
{
float f = 1.0;
float f1 = f/3;// f1 = 1/3
float f2 = f1*3; // f2 = 1;
float f_result = f1 - f2/3; // f_result = 0 ???
if(0.0f == f_result)
{
printf("f_result == 0/n");
}
else
{
printf("f_result != 0/n");
}
return 0;
}
通过上述程序,可以明确得到答案,但具体为什么如此,还需要从 C 语言中 float 类型变量的编码格式说起。
浮点数表示形如 V=x * 2^y 的有理数进行编码, IEEE 标准 754 仔细制定了浮点数及其运算的标准。
十进制的 12.34 可以这样表示: 1*10^1 + 2*10^0 + 3*10^-1 + 4*10^-2 。同样地,二进制的 101.11 可以这样表示: 1*2^2 + 1*2^0 + 1*2^-1 +1*2^-2 。注意而今之中形如 0.111…1 正好是小于 1 的数。假定只用有限长度的编码,那么十进制是不能准确表示想 1/3 、 5/7 这样的数的,类似的,小数的二进制表示法只能表示那些能够被写成 x * 2^y 的数,其他的只能用近似数来表示。
IEEE 浮点标准用 V=(-1)^s * M * 2^E 的形式来表示一个数:
( 1 )符号( sign ) s 决定数是负数( s=1 )还是正数( s=0 ),而对 0 的符号位作为特殊情况处理。
( 2 )有效数( significant ) M 是一个二进制小数。
( 3 )指数( exponent ) E 是 2 的幂(可能是负数),他的作用是对浮点数的加权。
一个浮点数的位表示按上述情形划分为 3 个域。
标准 C 语言中,单精度 float 浮点格式的符号位 =1 ,有效位 =23 ,指数位=8 ,产生一个 32 位的表示。双精度 double 浮点格式的符号位 =1 ,有效位 =52 ,指数位 =11 ,产生一个 64 位的表示。
根据指数位的值,被编码的值可以分为三种不同的情况,即,规格化值、非规格化值、特殊数值。当指数的为不全为 0 且不全为 1 时,属于规格化值;当指数位全为 0 时,属于非规格化值;当指数位全为 1 时,属于特殊数值。下面主要了解一下后两者情况。
非规格化值有两个目的。首先提供了一种表示数值 0 的方法当小数位也全为 0 时,可以根据符号位的不同表示 +0.0 和 -0.0 。另外一个功能是用来表示那些非常接近 0.0 的数,使用逐渐下溢出( gradual underflow )的方法实现这个属性。特殊数值当指数位全为 1 ,而小数位全为 0 时,可以表示正无穷大和负无穷大。当小数位为非零时,结果值被称为 NaN 。
因为表示方法限制了浮点数的范围和精度,所以浮点运算只能近似地表示实数运算。系统需要使用“最接近”匹配值的值保存浮点值,这就是舍入( rounding )运算的任务。 IEEE 规定了四种舍入方式,默认的方式是向偶数舍入,也叫向最接近的值舍入。
浮点数的表示是不精确的,不能直接比较两个数是否完全相等,一般都是在允许的某个范围内认为像个浮点数相等,如有两个浮点数a,b,允许的误差范围为1e-6,则abs(a-b)<=1e-6,即可认为a和b相等。还有一种方法就是扩大再取整,比如a=5.23,b=5.23,直接比较 a==b一般为false,但是a和b都扩大一百倍,然后强制转换为int类型,再用==比较就可以了
float型变量和“零值”比较的方法:
const float EPSINON = 0.000001;
if ((x >= - EPSINON) && (x <= EPSINON))
浮点型变量并不精确,其中EPSINON是允许的误差(即精度),所以不可将float变量用“==”或“!=”与数字比较,应该设法转化成“>=”或“<=”形式。如果写成if (x == 0.0),则是错误的。
因为1.0在计算机中可能存为0.999999或1.00001等,很难恰好是1.0
用10进制小数不能精确表示某些三进制小数0.1(3)=0.33333333333……(10)
同理,用二进制小数也不能精确表示某些10进制小数。
float类型
if(x<0.000001&&x>-0.000001)
前一段时间读了一下林锐博士的《高质量 C/C++ 编程指南》,其中有一个比较经典的问题。请写出 float x 与“零值”比较的 if 语句?
当时只知道不能直接用 float 类型的值与 0 进行“ == ”或“ != ”比较,但不知道该具体怎么写这个 if 语句。看过答案才知道,应该设法转化成“ >= ”或“ <= ”,即:
const float EPSINON = 0.00001;
if((x >= - EPSINON) && (x <= EPSINON))
看了答案后觉得很有道理,然后就记了答案,算是取得了“真经”了。
最近,我和项目组同事讨论问题的时候,正好涉及到这个问题。我马上想到自己的“真经”,炫耀地说出了标准答案,可同事问了句为什么,为什么是 0.00001 ?我马上哑炮了。终于体会那句话,凡事认真追问起来,都不简单。
事情要知其然,还要知其所以然。马上编了个小程序验证了一把。
#include<stdio.h>
int main()
{
float f = 1.0;
float f1 = f/3;// f1 = 1/3
float f2 = f1*3; // f2 = 1;
float f_result = f1 - f2/3; // f_result = 0 ???
if(0.0f == f_result)
{
printf("f_result == 0/n");
}
else
{
printf("f_result != 0/n");
}
return 0;
}
通过上述程序,可以明确得到答案,但具体为什么如此,还需要从 C 语言中 float 类型变量的编码格式说起。
浮点数表示形如 V=x * 2^y 的有理数进行编码, IEEE 标准 754 仔细制定了浮点数及其运算的标准。
十进制的 12.34 可以这样表示: 1*10^1 + 2*10^0 + 3*10^-1 + 4*10^-2 。同样地,二进制的 101.11 可以这样表示: 1*2^2 + 1*2^0 + 1*2^-1 +1*2^-2 。注意而今之中形如 0.111…1 正好是小于 1 的数。假定只用有限长度的编码,那么十进制是不能准确表示想 1/3 、 5/7 这样的数的,类似的,小数的二进制表示法只能表示那些能够被写成 x * 2^y 的数,其他的只能用近似数来表示。
IEEE 浮点标准用 V=(-1)^s * M * 2^E 的形式来表示一个数:
( 1 )符号( sign ) s 决定数是负数( s=1 )还是正数( s=0 ),而对 0 的符号位作为特殊情况处理。
( 2 )有效数( significant ) M 是一个二进制小数。
( 3 )指数( exponent ) E 是 2 的幂(可能是负数),他的作用是对浮点数的加权。
一个浮点数的位表示按上述情形划分为 3 个域。
标准 C 语言中,单精度 float 浮点格式的符号位 =1 ,有效位 =23 ,指数位=8 ,产生一个 32 位的表示。双精度 double 浮点格式的符号位 =1 ,有效位 =52 ,指数位 =11 ,产生一个 64 位的表示。
根据指数位的值,被编码的值可以分为三种不同的情况,即,规格化值、非规格化值、特殊数值。当指数的为不全为 0 且不全为 1 时,属于规格化值;当指数位全为 0 时,属于非规格化值;当指数位全为 1 时,属于特殊数值。下面主要了解一下后两者情况。
非规格化值有两个目的。首先提供了一种表示数值 0 的方法当小数位也全为 0 时,可以根据符号位的不同表示 +0.0 和 -0.0 。另外一个功能是用来表示那些非常接近 0.0 的数,使用逐渐下溢出( gradual underflow )的方法实现这个属性。特殊数值当指数位全为 1 ,而小数位全为 0 时,可以表示正无穷大和负无穷大。当小数位为非零时,结果值被称为 NaN 。
因为表示方法限制了浮点数的范围和精度,所以浮点运算只能近似地表示实数运算。系统需要使用“最接近”匹配值的值保存浮点值,这就是舍入( rounding )运算的任务。 IEEE 规定了四种舍入方式,默认的方式是向偶数舍入,也叫向最接近的值舍入。
浮点数的表示是不精确的,不能直接比较两个数是否完全相等,一般都是在允许的某个范围内认为像个浮点数相等,如有两个浮点数a,b,允许的误差范围为1e-6,则abs(a-b)<=1e-6,即可认为a和b相等。还有一种方法就是扩大再取整,比如a=5.23,b=5.23,直接比较 a==b一般为false,但是a和b都扩大一百倍,然后强制转换为int类型,再用==比较就可以了
float型变量和“零值”比较的方法:
const float EPSINON = 0.000001;
if ((x >= - EPSINON) && (x <= EPSINON))
浮点型变量并不精确,其中EPSINON是允许的误差(即精度),所以不可将float变量用“==”或“!=”与数字比较,应该设法转化成“>=”或“<=”形式。如果写成if (x == 0.0),则是错误的。
因为1.0在计算机中可能存为0.999999或1.00001等,很难恰好是1.0
float与double的范围和精度 1. 范围 float和double的范围是由指数的位数来决定的。 float的指数位有8位,而double的指数位有11位,分布如下: float: 1bit(符号位) 8bits(指数位) 23bits(尾数位) double: 1bit(符号位) 11bits(指数位) 52bits(尾数位) 于是,float的指数范围为-127~+128,而double的指数范围为-1023~+1024,并且指数位是按补码的形式来划分的。 其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。 float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。 2. 精度 float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。 float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字; double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。 |
相关文章推荐
- MFC 笔记
- NStimer 暂停与开始
- Java注解的使用
- Resizable 2th click not working
- Serializable和Parcelable以及持久化
- JavaWeb基础问题
- 实验七 二叉树及其应用(二)
- Objective-C中NSArray和NSMutableArray的基本用法
- 在TextView上加上下划线或中划线
- 如何使用openssl生成RSA公钥和私钥对
- apache压力测试ab
- 使用gdb
- 一道不错的匿名内部类面试题
- General PLSQL 查看数据表中文乱码????
- 使用Java代码获取服务器性能信息及局域网内主机名
- Could not open a connection to your authentication agent.
- java程序员第五课 分享下自己之前录制的视频汇总以及整理的pdf
- C# 中的委托和事件 观察者模式
- Android——生成签名APK
- iOS开发内购全套图文教程