您的位置：首页 > 其它

关于float,double的精度丢失

2013-11-16 17:43 501 查看

1.疑惑

由于对float或double 的使用不当，可能会出现精度丢失的问题。问题大概情况可以通过如下代码理解:

Java代码

<span style="font-size: small;">public class FloatDouble {



    /**功能：打印float和double浮点数十进制和二进制表示

     * @author mike

     * @param args

     */

    public static void main(String[] args) {

        double d = 20014999;

        long l = Double.doubleToLongBits(d);

        System.out.println("Double:"+"十进制:"+d+",二进制："+Long.toBinaryString(l));

        float f = 20014999;

        int i = Float.floatToIntBits(f);

        System.out.println("Float:"+"十进制："+f+",二进制："+Integer.toBinaryString(i));

    }

}

</span>

打印结果：

Double:十进制:2.0014999E7,二进制：100000101110011000101100111100101110000000000000000000000000000

Float:十进制：2.0015E7,二进制：1001011100110001011001111001100

从输出结果可以看出double 可以正确的表示20014999 ，而float 没有办法表示20014999 ，得到的只是一个近似值。这样的结果很让人讶异。20014999 这么小的数字在float下没办法表示。于是带着这个问
题，做了一次关于float和double学习，做个简单分享，希望有助于大家对java 浮点数的理解。

2.分析

关于 java 的 float 和 double

Java 语言支持两种基本的浮点类型： float 和 double 。java 的浮点类型都依据 IEEE
754 标准。

IEEE 754 定义了32 位和 64 位浮点数使用二进制表示标准。

维基百科：http://zh.wikipedia.org/wiki/IEEE_754

浮点数在c/c++以及java中的内存布局遵循IEEE标准的，首先看一下IEEE所规定的存储的方式：

符号位指数位小数部分指数偏移量单精度浮点数 双精度浮点数

1 位[31]	8位 [30-23]	23位 [22-00]	127
1 位[63]	11 位[62-52]	52 位[51-00]	1023

解释一下，首先float变量按上述标准是4个字节，其中最高位为符号位，1代表此浮点数为负数，0代表正数，接下来的8位为指数位，范围0~255，，IEEE规定了一个偏移量127，指数位的值减去127为小数的偏移。低23位为小数部分，这23位是来描述浮点数的值，偏移为0的情况下，这23位数是一个浮点数的小数部分，也就是说位于小数点的右边。

IEEE 754 用科学记数法以底数为 2 的小数来表示浮点数。32 位浮点数用 1 位表示数字的符号，用 8 位来表示指数，用 23 位来表示尾数，即小数部分。作为有符号整数的指数可以有正负之分。小数部分用二进制（底数 2）小数来表示。对于64 位双精度浮点数，用 1 位表示数字的符号，用 11 位表示指数，52 位表示尾数。如下两个图来表示：

float(32位):

double(64位):

都是分为三个部分：

(1)符号位：一个单独的符号位s 直接编码符号s 。

(2)幂指数(指数位)：k 位的幂指数E ，移码表示 。

(3)小数位(尾数位)：n 位的小数，原码表示 。

那么 20014999 为什么用 float 没有办法正确表示？

结合float和double的表示方法，通过分析 20014999 的二进制表示就可以知道答案了。

以下是 20014999 在 double 和 float 下的二进制表示方式。

Double:100000101110011000101100111100101110000000000000000000000000000

Float:1001011100110001011001111001100

对于输出结果分析如下。对于 double 的二进制左边补上符号位 0 刚好可以得到 64 位的二进制数。根据double的表示法，分为符号数、幂指数和尾数三个部分如下：

0 10000010111 0011000101100111100101110000000000000000000000000000

对于 float 左边补上符
号位 0 刚好可以得到 32 位的二进制数。根据float的表示法，也分为符号数、幂指数和尾数三个部分如下：

0 10010111 00110001011001111001100

绿色部分是符号位，红色部分是幂指数，蓝色部分是尾数。

对比可以得出:符号位都是 0 ，幂指数为移码表示,两者刚好也相等。唯一不同的是尾数。

在 double 的尾数
为： 001100010110011110010111 0000000000000000000000000000 ，省略后面的零，至少需要24位才能正确表示。

而在 float 下面尾数
为： 00110001011001111001100 ，共 23 位。

为什么会这样？原因很明显，因为 float尾数最多只能表示 23 位，所以 24 位的 001100010110011110010111 在 float 下面经过四舍五入变成了 23 位的 00110001011001111001100 。所以 20014999 在 float 下面变成了 20015000 。

也就是说 20014999 虽然是在float的表示范围之内，但在 IEEE
754 的 float 表示法精度长度没有办法表示出 20014999，而只能通过四舍五入得到一个近似值。

double 的尾数为： 001100010110011110010111加1后舍弃最后一位，就变成 float 尾数
为： 00110001011001111001100

3.引申：

(1)十进制转二进制：

用2辗转相除至结果为1 将余数和最后的1从下向上倒序写就是结果

例如

302 302/2 = 151 余0

151/2 = 75 余1

75/2 = 37 余1

37/2 = 18 余1

18/2 = 9 余0

9/2 = 4 余1

4/2 = 2 余0

2/2 = 1 余0

故二进制为100101110

(2)十进制转二进制，小数部分

小数乘以2，取整，小数部分继续乘以2，取整，得到小数部分0为止，将整数顺序排列。

例如

0.8125x2=1.625 取整1

小数部分是0.625 0.625x2=1.25 取整1

小数部分是0.25 0.25x2=0.5 取整0

小数部分是0.5 0.5x2=1.0 取整1

小数部分是0

结束所以0.8125的二进制是0.1101

(3)二进制转十进制

从最后一位开始算，依次列为第0、1、2...位第n位的数（0或1）乘以2的n次方得到的结果相加就是答案

例如:

01101011.

转十进制:

第0位:1乘2的0次方=1

1乘2的1次方=2

0乘2的2次方＝0

1乘2的3次方＝8

0乘2的4次方＝0

1乘2的5次方＝32

1乘2的6次方＝64

0乘2的7次方＝0

然后：1＋2＋0 ＋8＋0＋32＋64＋0＝107．

二进制01101011＝十进制107．

(4)浮点数转化成二进制

已知：double类型38414.4。

求：其对应的二进制表示。

分析：double类型共计64位，折合8字节。由最高到最低位分别是第63、62、61、……、0位：

最高位63位是符号位，1表示该数为负，0表示该数为正； 62-52位，一共11位是指数位； 51-0位，一共52位是尾数位。

步骤：

按照IEEE浮点数表示法，下面先把38414.4转换为二制数。

把整数部和小数部分开处理:整数部直接化二进制进制： 1001011000001110 。

小数的处理:

0.4*2=0.8 取0

0.8*2=1.6 取1

0.6*2=1.2 取1

0.2*2=0.4 取0

0.4*2=0.8 取0

..............

实际上这永远算不完！这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。

隐藏位技术：最高位的1不写入内存（最终保留下来的还是52位）。

如果你够耐心，手工算到53位那么因该是：38414.4(10)=1001011000001110.0110011001100110011001100110011001100(2)

科学记数法为：1.001011000001110 0110011001100110011001100110011001100，右移了15位，所以指数为15。

或者可以如下理解：

1.001011000001110 0110011001100110011001100110011001100×2^15

于是来看阶码，按IEEE标准一共11位，可以表示范围是-1024 ~ 1023。因为指数可以为负，为了便于计算，规定都先加上1023(2^10-1)，在这里，阶码：15+1023=1038。二进制表示为：100 00001110；符号位：因为38414.4为正对应为0；合在一起（注：尾数二进制最高位的1不要）：

01000000 11100010 11000001 110 01100 11001100 11001100 11001100 11001100

4.总结：

浮点运算很少是精确的，只要是超过精度能表示的范围就会产生误差。往往产生误差不是因为数的大小，而是因为数的精度。因此，产生的结果接近但不等于想要的结果。尤其在使用 float 和 double 作精确运
算的时候要特别小心。

可以考虑采用一些替代方案来实现。如通过 String 结合 BigDecimal 或
者通过使用 long 类型来转换。

ref:http://zhangzhaoaaa.iteye.com/blog/1669321

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航