浮点数运算——加减乘除都有哈

什么是浮点数
浮点数运算异常
IEEE 754 标准规定的五种异常情况
浮点数除0的问题
浮点数加减运算
浮点数乘除运算

导读：浮点数运算是一个非常有技术含量的话题，不太容易掌握。许多程序员都不清楚使用==操作符比较float/double类型的话到底出现什么问题。许多人使用float/double进行货币计算时经常会犯错。

一、什么是浮点数？

在计算机系统的发展过程中，曾提出过多种方法表示实数。

　　【1】相对于浮点数的定点数（Fixed Point Number）。在这种表达方式中，小数点固定在实数所有数字中间的某个位置。货币的表达就可以使用这种方式，比如 99.00 或者 00.99 可以用于表达具有四位精度（Precision），小数点后有两位的货币值。由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。

　　【2】有理数表达方式，即用两个整数的比值来表达实数。定点数表达法的缺点在于其形式过于僵硬，固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数。最终，绝大多数现代的计算机系统采纳了所谓的浮点数表示法。

　　【3】浮点数表达方式，这种表达方式利用科学计数法来表达实数，即用一个尾数（Mantissa ），一个基数（Base），一个指数（Exponent）以及一个表示正负的符号来表达实数。比如 123.45 用十进制科学计数法可以表达为 1.2345 * 10^2 ，其中 1.2345 为尾数，10 为基数，2 为指数。浮点数利用指数达到了浮动小数点的效果，从而可以灵活地表达更大范围的实数。尾数有时也称为有效数字（Significand）。尾数实际上是有效数字的非正式说法。

依据IEEE（电气和电子工程协会）754 标准 存储浮点数 👉【上一篇文章中有介绍此标准】

二、浮点数运算异常

上述运算结果可能出现以下几种情况：

阶码上溢	一个正指数超过了最大允许值	+∞/-∞/溢出
阶码下溢	一个负指数超过了最小允许值	+0/-0
尾数溢出（尾数溢出，结果不一定溢出）	最高有效位有进位	右规
非规格化尾数	数值部分高位为0 右规或对阶时，右段有效位丢失	左规尾数舍入

三、 IEEE 754 标准规定的五种异常情况

👉【上一篇文章中有介绍此标准】

①无效运算（无意义）
运算时有一个数是非有限数，如：加/ 减∞、0 x ∞、∞/∞
结果无效，如：源操作数是NaN、0/0、x REM 0、∞REMy
②除以0（即：无穷大）
③数太大（阶上溢）: 对于SP，指阶码E >1111 1110（指数大于127）
④数太小（阶下溢）: 对于SP，指阶码E < 0000 0001（指数小于-126）
⑤结果不精确（舍入时引起），例如1/3、1/10等不能精确表示成浮点数

上述情况硬件可以捕捉到，因此这些异常可设定让硬件处理，也可设定让软件处理。让硬件处理时，称为硬件陷阱。

四、浮点数除0的问题

#include <stdio.h>
#include <conio.h>
#include <windows.h>int mian()
{int a = 1, b = 0;printf("Divisionby zero:%d\n", a / b);return 0;
}
//程序编译报错

结果 👇

#include <stdio.h>
#include <conio.h>
#include <windows.h>int main(void)
{double x = 1, y = -1.0, z = 0.0;printf("Division by zero : % f      % f\n",x/z,y/z);system("pause");return 0;
}
//浮点数运算中，一个有限数除以0， 结果为正无穷大（负无穷大）

结果 👇

五、浮点数加减运算

使用补码表示阶码和尾数的浮点数的加减运算

运算步骤如下：

1.对阶：对阶的原则是小的阶码向大的阶码看齐，这是因为小阶码增大数值时，尾数部分右移舍去的是尾数的低位部分，但如果让大阶码向小的阶码看齐，则尾数部分相应左移，将会丟失尾数的高位部分，导致运算结果的精确度大大降低。

对阶又包括如下两个步骤：

求阶差：通过对两个阶码进行减法运算实现，这不仅能知道阶码的大小，还能求出两个阶码的具体差值。
阶码的调整与尾数的移位，可按下面方式进行：

若 m > n，则将浮点数 y 的尾数右移 m - n 位。

若 m < n，则将浮点数 x 的尾数右移 n - m 位。

2.尾数运算：对阶完成后可按照定点数的加减运算法则执行尾数加减操作，注意，对于阶码小的那个浮点数，应该使用对阶后的尾数参加运算。

3.结果规格化：结果规格化就是使运算结果成为规格化数，为了运算处理方便，可让尾数的符号位扩展为两位，当尾数运算结果不是 11.0XX…X 或 00.1XX…X 的形式时，则应进行相应的规格化处理：

当尾数双符号位为 01 或 10 时，需要向右规格化，且只需将尾数右移一位，同时将结果的阶码值加 1。
当尾数运算结果为 11.1XX…X 或 00.0XX…X 时需要左移规格化，而且左移次数不固定，与运算结果的形式有关。左规的方法是尾数连同符号位一起左移位，结果的阶码减 1，直到尾数部分出现 11.0 或 00.1 的形式为止。

4.舍入：在对阶右移和右移规格化操作时，尾数末尾的几位会超出机器字长而被丢掉，从而产生误差。这时，计算机可以按选定的方式进行舍入操作，常用的舍入方法如下：

末位恒置1法：只要因移位而丢失的位中有一位是1，就把运算结果的最低位置1，而不管最低位原来是0还是1。
0舍1入法：当丢失位数的最高位是1时将尾数的末尾加1。

5.溢出判断：由于浮点数中阶码的位数决定数的表示范围，因此对于浮点运算而言，当阶码出现溢出时才表示运算结果溢出，即当阶码的符号位为 01 和 10 时表示运算结果溢出。

六、浮点数乘除运算

浮点数乘除运算在正式运算前会对操作数进行预处理。对于乘法如果有一个操作数为0则结果为0。对于浮点数除法，若被除数为0，则结果为0。除数为0分两种情况，第一种是被除数非零，第二种是被除数为0。下面介绍一下两种除数为0：

除数为0，被除数不为0：结果为无穷大。在IEEE 754标准下就是阶码全为1，尾数全为0。

int main(void)
{float a = 1.0 ;float b = 0 ;float c; c = a / b ;           // 1.0 / 0 printf("%f", c);      //1.#INF00return 0;
}

除数被除数都为0：结果是NAN（not a number)。在IEEE 754标准下阶码全为1，尾数非0。

int main(void)
{float a = 0.0 ;float b = 0.0 ;float c; c = a / b ;           // 0.0 / 0.0 printf("%f", c);      // -1.#IND00return 0;
}

注：在Windows系统下，-1.#IND00即代表nan，Linux系统下会输出nan。

运算规则：两个浮点数相乘，乘积的阶码应为相乘两数的阶码之和，乘积的尾数应为相乘两数的尾数之积。两个浮点数相除，商的阶码为被除数的阶码减去除数的阶码，尾数为被除数的尾数除以除数的尾数所得的商，下面用数学公式来描述。

运算步骤
1、 0操作数检查
对于乘法:检测两个尾数中是否一个为0,若有一个为0,则乘积必为0,不再做其他操作;若两尾数均不为0,则可进行乘法运算。
对于除法:若被除数x为0,则商为0;若除数y为0,则商为∞，另作处理。若两尾数均不为0，则可进行除法运算。
2、阶码加减操作
在浮点乘除法中，对阶码的运算只有4种，即+1、 -1两阶码求和以及两阶码求差。当然，在运算的过程中，还要检查是否有溢出，因为两个同号的阶码相加或异号的阶码相减可能产生溢出。
3、尾数乘/除操作
按照定点小数的阵列乘除法运算方法对两个浮点数的尾数进行乘除运算。为了保证尾数相除时商的正确性，必须保证被除数尾数的绝对值一定小于除数尾数的绝对值。若被除数尾数的绝对值大于除数尾数的绝对值，需对被除数进行调整，即被除数的尾数每右移1位，阶码加1，直到被除数尾数的绝对值小于除数尾数的绝对值。
4、结果规格化及舍入处理
可直接采用浮点数加减法的规格化和舍入处理方式。主要有以下两种:

无条件地丢掉正常尾数最低位之后的全部数值。这种办法被称为截断处理，其好处是处理简单，缺点是影响结果的精度。
运算过程中保留右移中移出的若千高位的值，最后再按某种规则用这些位上的值进行修正尾数。这种处理方法被称为舍入处理。

当尾数用原码表示时，舍入规则比较简单。最简便的方法是，只要尾数的最低位为1,或移出的几位中有为1的数值，就使最低位的值为1。另一种是0舍1入法，即当丢失的最高位的值为1时，把这个1加到最低数值位上进行修正。
当尾数用补码表示时，所用的舍入规则应该与用原码表示时产生相同的处理效果。
具体规则是: