开平方的快速算法(C代码)

一、牛顿迭代法

二、采用移位、加减法、判断和循环实现开平方

三、效率远高于牛顿迭代法开平方法

1、原理

2、实现代码

四、卡马克快速开平方算法(推荐)

1、C-Free模拟验证卡马克开平方

2、移植到实际的项目

3、卡马克快速开平方的由来

1）Quake III中不可思议的求解平方根实现方法 2）前言 3）Carmack's不寻常平方根倒数

4）牛顿对根的近似值 5）魔数

-----------------------------------------------------------------------------------------------------------------

一、牛顿迭代法

牛顿迭代法：多数方程不存在求根公式，牛顿提出了一种用迭代来求方程近似根的方法。思路就是不断取切线，用线性方程的根逼近非线性方程f(x)=0的根X*。

图1.1 牛顿迭代法求开方

过点(Xk,f(Xk))作函数的切线，切线方程是：。

切线与x轴的交点是Xk+1，点（Xk+1,0）满足以下方程：。

如果f'(Xk)≠0，则有这就是牛顿迭代法的迭代公式。

//C语言 abs()是取绝对值
#include "math.h"
int mySqrt(int x)
{if( x==0 )return 0;double xk = 1, xk1 = 0; double err = 1e-6; // err为误差，1e-6就是1乘10的-6次幂while( abs(xk-xk1) > err ) //循环退出的条件是真正解与近似解的误差进入允许的范围{xk1 = xk;xk = ( xk + x/xk )/2; //迭代公式}return xk;
}

#include "math.h"
int mySqrt(int x)
{long xk = x; //避免 xk*xk 溢出，故采用long整型double err = 1e-6; // err为误差，1e-6就是1乘10的-6次幂while( xk*xk > x ) //循环退出的条件是 xk*xk 小于 x ，参考本文代码1中的区间关系{xk = ( xk + x/xk )/2; //迭代公式}return xk;
}

#include "math.h"
double sqrt(double x)
{if (x == 0)return 0;double last = 0.0;double res = 1.0;while (res != last){last = res;res = (res + x / res) / 2;}return res;
}

/*
==================================================================
使用牛顿迭代法求a的平方根，迭代公式：Xn+1=(Xn+a/Xn)/2.
先输入符合条件的数a，给x0和x1赋值，使得差的绝对值>10^(-10)；
当差≥10^(-10)时使用迭代公式使x0和x1的差<10^(-10)方，则平方根就是x1或x0。
==================================================================
*/
#include "stdio.h"
#include "math.h"int main(void)
{float a,x0,x1;printf("a=");scanf("%f",&a);if(a>=0)flag=0;elseprintf("你所输入的数不能求平方根，请重试！\n_________________\n\n");x0=1;x1=x0+1;while(fabs(x0-x1)>=1e-10){x0=x1;x1=0.5*(x0+a/x0);}printf("%.2f的平方根是：%.2f\n",a,x1);
}

-----------------------------------------------------------------------------------------------------------------

二、采用移位、加减法、判断和循环实现开平方

本算法只采用移位、加减法、判断和循环实现，因为它不需要浮点运算，也不需要乘除运算，因此可以很方便地运用到各种芯片上去。

我们先来看看10进制下是如何手工计算开方的。先看下面两个算式：x = 10*p+q ①
公式①左右平方之后得：x^2 = 100*p^2 + 20pq + q^2 ②
现在假设我们知道x^2和p，希望求出q来，求出了q也就求出了x^2的开方x了。
我们把公式②改写为如下格式：q = (x^2-100*p^2)/(20*p+q) ③
这个算式左右都有q，因此无法直接计算出q来，因此手工的开方算法和手工除法算法一样有一步需要猜值。我们来一个手工计算的例子：计算1234567890的开方。
首先我们把这个数两位两位一组分开，计算出最高位为3。也就是③中的p，最下面一行的334为余数，也就是公式③中的(x^2 - 100*p^2)近似值。
3 ---------------   |12 34 56 78 90 9 --------------- | 3 34
下面我们要找到一个0-9的数q使它最接近满足公式③。我们先把p乘以20写在334左边：
3q   --------------- | 12 34 56 78 90 9   ---------------   6q |3 34
我们看到q为5时(60+q*q)的值最接近334，而且不超过334。于是我们得到：
35   --------------- | 12 34 56 78 90 9   --------------- 65|3 34  |3 25    --------------- 9 56
接下来就是重复上面的步骤了，这里就不再啰嗦了。

这个手工算法其实和10进制关系不大，因此我们可以很容易的把它改为二进制，改为二进制之后，公式③就变成了：q = (x^2 - 4*p^2)/(4*p+q) ④

我们来看一个例子，计算100(二进制1100100)的开方：
1010 --------------- |1 10 01 00 1 --------------- 100| 0 10 | 0 00 --------------- |10 011001| 10 01 --------------- 0 00
这里每一步不再是把p乘以20了，而是把p乘以4，也就是把p右移两位，而由于q的值只能为0或1，所以我们只需要判断余数(x^2-4*p^2)和(4*p+1)的大小关系，如果余数大于等于(4*p+q)那么该上一个1，否则该上一个0。
下面给出完成的C语言程序，其中root表示p，rem表示每步计算之后的余数，divisor表示(4*p+1)，通过a>>30取a的最高 2位，通过a<<=2将计算后的最高2位剔除。其中root的两次<<1相当于4*p。程序完全是按照手工计算改写的，应该不难理解。

unsigned short sqrt(unsigned long a)
{unsigned long rem = 0;unsigned long root = 0;unsigned long divisor = 0;for(int i=0; i<16; i++){root <<= 1;rem = ((rem << 2) + (a >> 30));a <<= 2;divisor = (root<<1) + 1;if(divisor <= rem){rem -= divisor;root++;}}return (unsigned short)(root);
}

-----------------------------------------------------------------------------------------------------------------

三、效率远高于牛顿迭代法开平方法

目前开平方的方法大部分使用牛顿迭代法。查了一些资料以后找到了一个比牛顿迭代法更加快速的方法。介绍给大家，希望会有些帮助。

1、原理

因为排版的原因，用pow(X,Y)表示X的Y次幂，用B[0]，B[1]，...，B[m-1]表示一个序列，其中[x]为下标。

假设：
    B[x],b[x]都是二进制序列,取值0或1。
    M = B[m-1]*pow(2,m-1) + B[m-2]*pow(2,m-2) + ... + B[1]*pow(2,1) + B[0]*pow(2,0)
    N = b[n-1]*pow(2,n-1) + b[n-2]*pow(2,n-2) + ... + b[1]*pow(2,1) + n[0]*pow(2,0)
    pow(N,2) = M

(1) N的最高位b[n-1]可以根据M的最高位B[m-1]直接求得。
    设 m 已知,因为 pow(2, m-1) <= M <= pow(2, m)，所以 pow(2, (m-1)/2) <= N <=pow(2, m/2)
    如果 m 是奇数，设m=2*k+1,那么 pow(2,k) <= N < pow(2, 1/2+k) < pow(2, k+1),n-1=k, n=k+1=(m+1)/2
    如果 m 是偶数，设m=2k,那么 pow(2,k) > N >= pow(2, k-1/2) > pow(2, k-1),n-1=k-1,n=k=m/2
    所以b[n-1]完全由B[m-1]决定。
    余数 M[1] = M - b[n-1]*pow(2, 2*n-2)

(2) N的次高位b[n-2]可以采用试探法来确定。
    因为b[n-1]=1，假设b[n-2]=1，则 pow(b[n-1]*pow(2,n-1) + b[n-1]*pow(2,n-2),2) = b[n-1]*pow(2,2*n-2) + (b[n-1]*pow(2,2*n-2) + b[n-2]*pow(2,2*n-4)),然后比较余数M[1]是否大于等于 (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4)。这种比较只须根据B[m-1]、B[m-2]、...、B[2*n-4]便可做出判断，其余低位不做比较。
    若 M[1] >= (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4), 则假设有效，b[n-2] =1；
    余数 M[2] = M[1] - pow(pow(2,n-1)*b[n-1] + pow(2,n-2)*b[n-2], 2) = M[1] -(pow(2,2)+1)*pow(2,2*n-4)；
    若 M[1] < (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4), 则假设无效，b[n-2] =0；余数 M[2] = M[1]。

(3) 同理，可以从高位到低位逐位求出M的平方根N的各位。
使用这种算法计算32位数的平方根时最多只须比较16次，而且每次比较时不必把M的各位逐一比较，尤其是开始时比较的位数很少，所以消耗的时间远低于牛顿迭代法。

-----------------------------------------------------------

2、实现代码

这里给出实现32位无符号整数开方得到16位无符号整数的C语言代码。

unsigned int sqrt_16(unsigned long M)
{unsigned int N, i;unsigned long tmp, ttp;  // 结果、循环计数if (M == 0)  // 被开方数，开方结果也为0return 0;N = 0;tmp = (M >> 30);  // 获取最高位：B[m-1]M <<= 2;if (tmp > 1)   // 最高位为1{N ++;      // 结果当前位为1，否则为默认的0tmp -= N;}for (i=15; i>0; i--)   // 求剩余的15位{N <<= 1;     // 左移一位tmp <<= 2;tmp += (M >> 30);  // 假设ttp = N;ttp = (ttp<<1)+1;M <<= 2;if (tmp >= ttp)   // 假设成立{tmp -= ttp;N ++;}}return N;
}

-----------------------------------------------------------------------------------------------------------------

四、卡马克快速开平方算法(推荐)

1、C-Free模拟验证卡马克开平方

因为工作的需要，要在单片机上实现开根号的操作。卡马克快速开平方据说能比float sqrt(x)快4倍，下面有详细描述，见本节“3、卡马克快速开平方的由来”。在C-Free(MinGW及C-Free的使用)下模拟编译通过，计算结果准确度还是很高的。

本例使用的开平方子函数的源码如下：

float SquareRootFloat(float number)
{long i;float x, y;const float f = 1.5F;x = number * 0.5F;y  = number;i  = * ( long * ) &y;i  = 0x5f3759df - ( i >> 1 );  //卡马克
//   i  = 0x5f375a86 - ( i >> 1 );  //Lomonty  = * ( float * ) &i;y  = y * ( f - ( x * y * y ) );y  = y * ( f - ( x * y * y ) );return number * y;
}

-----------------------------------------------------------

2、移植到实际的项目

本项目较详细的介绍移步：STM32单片机-输入捕获、FFT测频，此“卡马克快速开平方算法”在量产的产品中已经实际使用多年(9年以上)。

-----------------------------------------------------------

3、卡马克快速开平方的由来

同志们！本部分如若不感兴趣，可以直接略过哦。取前面的代码使用即可，而且本代码在批量生产的项目中已经验证过。

1）Quake III中不可思议的求解平方根实现方法
任何一个3D引擎都是通过其内部的数学模型和实现工具来展现它的力量与速度的，and trust John Carmack of ID software for using really good hacks. 结果，Quake III中使用了一个非常有意思的技巧来计算平方根倒数(inverse square root)。

------------------------------

2）前言
ID Software最近发布了它的带有GPL许可证的Quake III引擎源代码，在这篇文章中我们将会看到Carmark是怎样用他的Black Magic来极其迅速地计算一个浮点数的平方根。

------------------------------

3）Carmack's不寻常平方根倒数
对文件game/code/q_math.c的快速一瞥就显示出了许多有趣的Performance Hacks。
第一个跳出来的便是对函数Q_rsqrt中对0x5f3759df的使用，这个数计算了一个浮点数的inverse square root，但是为什么这个函数有这样的功能呢？观察q_math.c原本的函数：

float Q_rsqrt( float number ) 
{ long i; float x2, y; const float threehalfs = 1.5F; x2 = number * 0.5F; y  = number; i  = * ( long * ) &y; // evil floating point bit level hacking i  = 0x5f3759df - ( i >> 1 ); // what the fuck? y  = * ( float * ) &i; y  = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration // y  = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed #ifndef Q3_VM #ifdef __linux__ assert( !isnan(y) ); // bk010122 - FPE? #endif #endif return y; 
}

它不仅有效，甚至在某些CPU上，Carmack的Q_rsqrt 比(float)(1.0/sqrt(x)的计算快4倍，尽管sqrt()通常使用的是FSQRT的汇编指令！

在另一个文件code/common/cm_trace.c 中，我们发现了更简洁的对同样Hack的实现。这一次，它被用来计算一个float - sqrt(x)的平方根。注意，其中的唯一不同是在返回值上：用返回*y取代了返回y。

float SquareRootFloat(float number) 
{long i; float x, y; const float f = 1.5F; x = number * 0.5F; y  = number; i  = * ( long * ) &y; i  = 0x5f3759df - ( i >> 1 ); y  = * ( float * ) &i; y  = y * ( f - ( x * y * y ) ); y  = y * ( f - ( x * y * y ) ); return number * y; 
}

------------------------------

4）牛顿对根的近似值
上面的代码执行了众所周知的牛顿对根的近似值[3]，像绝大多数其它迭代求近似值的计算一样，牛顿近似值假定是迭代的；每一次迭代都增强了它的准确度直至达到需要的准确度。

在牛顿近似值中的一般想法是猜测一个数x的平方根值y，可能通过一个简单的操作，用x/y拉平y来取得更好的猜测，使其更接近实际的平方根。例如，像下面这样计算2的平方根，假定初始的猜测是1：

2/1 = 2 ; (2 + 1) / 2 = 1.5

2/1.5 = 1.3333; ( 1.5 + 1.3333 ) / 2 = 1.4167

2/1.4167 = 1.4117; ( 1.4167 + 1.4117 ) / 2 = 1.4142

And so on...
如前面所提到的，牛顿的近似值是一个大家所熟知的用以快速计算平方根的方法。但是，Carmack在初始的猜测中就选取了不寻常的值，彻底加强了准确度并且将Quake III中计算所要的值的迭代次数降到了1次！

------------------------------
5）魔数
函数中真正有意思的方面是神奇的常量0x5f3759df，用来计算初始猜测的，在i = 0x5f3759df - ( i >> 1 );

因此，把输入除以2并从神奇常量中减去。这个常数工作起来几乎是完美的——对于一个 low relative error of 10^(-3)来说只要一次牛顿近似值迭代就够了。如评论中第二次迭代中展示的，这个近似值对Quake III引擎来说已经足够了。

结果，这个神奇的常数0x5f3759df成了一个迷了，在文章"Fast Inverse Square Root" [2] ，普度大学的数学家Chris Lomont研究了这个常数，用了几种精细的技术，Lomont想自己用数学方法求出这个常数来，结果令人惊奇——Lomont用数学方法计算出来的最佳常数(0x5f37642f)有一点点不同，并且除了理论上强一些之外，它产生的结果并没有源代码中使用的原始常数好！确实，John Carmack 一定用了天才般的黑盒来找到这个常数。

只在仅仅从数字上来找的方法中，Lomont找到了一个更好的常数，这个数比原始的那个强了那么一点点。然而，实践中两个常数产生了大概相同的结果，Lomont提出这个使用了更好的常数的函数：

float InvSqrt(float x) 
{float xhalf = 0.5f*x; int i = *(int*)&x; // get bits for floating value i = 0x5f375a86- (i>>1); // gives initial guess y0 x = *(float*)&i; // convert bits back to float x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy return x; 
}

-----------------------------------------------------------------------------------------------------------------