浮点数运算是否存在缺陷？

技术背景

在大多数编程语言中，浮点数运算基于 IEEE 754 标准。该标准下，浮点数以二进制表示，本质是一个整数乘以 2 的幂次方。然而，像 0.1（即 1/10）这类分母不是 2 的幂次方的有理数，无法用二进制精确表示。这就导致在进行浮点数运算时，会出现精度误差。

实现步骤

1. 理解浮点数的二进制表示

以 0.1 为例，在标准的 binary64 格式中，它的十进制表示为 0.1000000000000000055511151231257827021181583404541015625，十六进制表示为 0x1.999999999999ap-4。这表明计算机实际存储的 0.1 并非精确的 0.1。

2. 分析运算误差

当计算 0.1 + 0.2 时，由于 0.1 和 0.2 都无法精确表示，它们的和 0.1 + 0.2 会大于精确的 0.3。具体来说，0.1 和 0.2 的近似值相加得到的结果为 0.3000000000000000444089209850062616169452667236328125，而精确的 0.3 实际存储的值为 0.299999999999999988897769753748434595763683319091796875。

3. 硬件层面的误差原因

运算误差：从硬件设计角度，大多数浮点运算都会有误差。因为进行浮点计算的硬件只要求单次运算误差小于最低有效位的 0.5 个单位。在浮点除法中，常用乘法求倒数的方式计算商，如 Z = X * (1/Y)。除法是迭代计算的，每次循环计算商的一些位，直到达到所需精度（误差小于最低有效位的 1 个单位）。商选择表（QST）中的倒数都是实际倒数的近似值，会引入误差。
截断误差：IEEE - 754 允许对最终结果进行不同模式的截断，如截断、向零舍入、四舍五入（默认）、向下舍入和向上舍入等。这些方法在单次运算中都会引入小于最低有效位 1 个单位的误差，多次运算后，截断误差会累积。

核心代码

1. 将双精度浮点数转换为二进制表示的 C# 代码

public static string BinaryRepresentation(double value)
{
    long valueInLongType = BitConverter.DoubleToInt64Bits(value);
    string bits = Convert.ToString(valueInLongType, 2);
    string leadingZeros = new string('0', 64 - bits.Length);
    string binaryRepresentation = leadingZeros + bits;

    string sign = binaryRepresentation[0].ToString();
    string exponent = binaryRepresentation.Substring(1, 11);
    string mantissa = binaryRepresentation.Substring(12);

    return string.Format("{0}:{1}:{2}", sign, exponent, mantissa);
}

2. 解决浮点数精度问题的 JavaScript 函数

function floatify(number){
    return parseFloat((number).toFixed(10));
}

function addUp(){
    var number1 = +$("#number1").val();
    var number2 = +$("#number2").val();
    var unexpectedResult = number1 + number2;
    var expectedResult = floatify(number1 + number2);
    $("#unexpectedResult").text(unexpectedResult);
    $("#expectedResult").text(expectedResult);
}
addUp();

3. 自定义加法函数

function add(a, b, precision) {
    var x = Math.pow(10, precision || 2);
    return (Math.round(a * x) + Math.round(b * x)) / x;
}

最佳实践

1. 四舍五入

在显示浮点数之前，使用四舍五入函数将其保留到所需的小数位数。例如，在 JavaScript 中可以使用 toFixed() 方法：

1 2	`var result = 0.1 + 0.2; console.log(result.toFixed(2)); // 输出 0.30`

2. 比较时使用容差

避免直接使用 == 进行浮点数的相等比较，而是使用容差比较。例如：

function isEqual(x, y, tolerance) {
    return Math.abs(x - y) < tolerance;
}

var x = 0.1 + 0.2;
var y = 0.3;
var tolerance = 0.0000001;
console.log(isEqual(x, y, tolerance)); // 根据容差判断是否相等