开平方的快速算法(C代码)

article/2025/9/15 9:53:54

目录:

一、牛顿迭代法

二、采用移位、加减法、判断和循环实现开平方

三、效率远高于牛顿迭代法开平方法

1、原理

2、实现代码

四、卡马克快速开平方算法(推荐)

1、C-Free模拟验证卡马克开平方

2、移植到实际的项目

3、卡马克快速开平方的由来

1)Quake III中不可思议的求解平方根实现方法   2)前言   3)Carmack's不寻常平方根倒数

4)牛顿对根的近似值   5)魔数

-----------------------------------------------------------------------------------------------------------------

一、牛顿迭代法

牛顿迭代法:多数方程不存在求根公式,牛顿提出了一种用迭代来求方程近似根的方法。思路就是不断取切线,用线性方程的根逼近非线性方程f(x)=0的根X*。

图1.1 牛顿迭代法求开方

过点(Xk,f(Xk))作函数的切线,切线方程是:

切线与x轴的交点是Xk+1,点(Xk+1,0)满足以下方程:

如果f'(Xk)≠0,则有    这就是牛顿迭代法的迭代公式。

//C语言 abs()是取绝对值
#include "math.h"
int mySqrt(int x)
{if( x==0 )return 0;double xk = 1, xk1 = 0; double err = 1e-6; // err为误差,1e-6就是1乘10的-6次幂while( abs(xk-xk1) > err ) //循环退出的条件是真正解与近似解的误差进入允许的范围{xk1 = xk;xk = ( xk + x/xk )/2; //迭代公式}return xk;
}
#include "math.h"
int mySqrt(int x)
{long xk = x; //避免 xk*xk 溢出,故采用long整型double err = 1e-6; // err为误差,1e-6就是1乘10的-6次幂while( xk*xk > x ) //循环退出的条件是 xk*xk 小于 x ,参考本文代码1中的区间关系{xk = ( xk + x/xk )/2; //迭代公式}return xk;
}
#include "math.h"
double sqrt(double x)
{if (x == 0)return 0;double last = 0.0;double res = 1.0;while (res != last){last = res;res = (res + x / res) / 2;}return res;
}
/*
==================================================================
使用牛顿迭代法求a的平方根,迭代公式:Xn+1=(Xn+a/Xn)/2.
先输入符合条件的数a,给x0和x1赋值,使得差的绝对值>10^(-10);
当差≥10^(-10)时使用迭代公式使x0和x1的差<10^(-10)方,则平方根就是x1或x0。
==================================================================
*/
#include "stdio.h"
#include "math.h"int main(void)
{float a,x0,x1;printf("a=");scanf("%f",&a);if(a>=0)flag=0;elseprintf("你所输入的数不能求平方根,请重试!\n_________________\n\n");x0=1;x1=x0+1;while(fabs(x0-x1)>=1e-10){x0=x1;x1=0.5*(x0+a/x0);}printf("%.2f的平方根是:%.2f\n",a,x1);
}

-----------------------------------------------------------------------------------------------------------------

二、采用移位、加减法、判断和循环实现开平方

本算法只采用移位、加减法、判断和循环实现,因为它不需要浮点运算,也不需要乘除运算,因此可以很方便地运用到各种芯片上去。

我们先来看看10进制下是如何手工计算开方的。先看下面两个算式:x = 10*p+q ①
公式①左右平方之后得:x^2 = 100*p^2 + 20pq + q^2 ②
现在假设我们知道x^2和p,希望求出q来,求出了q也就求出了x^2的开方x了。
我们把公式②改写为如下格式:q = (x^2-100*p^2)/(20*p+q) ③
这个算式左右都有q,因此无法直接计算出q来,因此手工的开方算法和手工除法算法一样有一步需要猜值。我们来一个手工计算的例子:计算1234567890的开方。
首先我们把这个数两位两位一组分开,计算出最高位为3。也就是③中的p,最下面一行的334为余数,也就是公式③中的(x^2 - 100*p^2)近似值。
3     ---------------   |12 34 56 78 90  9   ---------------       | 3 34
下面我们要找到一个0-9的数q使它最接近满足公式③。我们先把p乘以20写在334左边:
3q   ---------------   | 12 34 56 78 90 9   ---------------   6q |3 34
我们看到q为5时(60+q*q)的值最接近334,而且不超过334。于是我们得到:
35   ---------------   | 12 34 56 78 90 9   ---------------   65|3 34  |3 25    ---------------    9 56
接下来就是重复上面的步骤了,这里就不再啰嗦了。

这个手工算法其实和10进制关系不大,因此我们可以很容易的把它改为二进制,改为二进制之后,公式③就变成了:q = (x^2 - 4*p^2)/(4*p+q) ④


我们来看一个例子,计算100(二进制1100100)的开方:
1010 ---------------  |1 10 01 00 1 --------------- 100| 0 10 | 0 00  ---------------  |10 011001| 10 01 ---------------  0 00
这里每一步不再是把p乘以20了,而是把p乘以4,也就是把p右移两位,而由于q的值只能为0或1,所以我们只需要判断余数(x^2-4*p^2)和(4*p+1)的大小关系,如果余数大于等于(4*p+q)那么该上一个1,否则该上一个0。
下面给出完成的C语言程序,其中root表示p,rem表示每步计算之后的余数,divisor表示(4*p+1),通过a>>30取a的最高 2位,通过a<<=2将计算后的最高2位剔除。其中root的两次<<1相当于4*p。程序完全是按照手工计算改写的,应该不难理解。

unsigned short sqrt(unsigned long a)
{unsigned long rem = 0;unsigned long root = 0;unsigned long divisor = 0;for(int i=0; i<16; i++){root <<= 1;rem = ((rem << 2) + (a >> 30));a <<= 2;divisor = (root<<1) + 1;if(divisor <= rem){rem -= divisor;root++;}}return (unsigned short)(root);
}

-----------------------------------------------------------------------------------------------------------------

三、效率远高于牛顿迭代法开平方法

目前开平方的方法大部分使用牛顿迭代法。查了一些资料以后找到了一个比牛顿迭代法更加快速的方法。介绍给大家,希望会有些帮助。

1、原理

因为排版的原因,用pow(X,Y)表示X的Y次幂,用B[0],B[1],...,B[m-1]表示一个序列,其中[x]为下标。

假设:
    B[x],b[x]都是二进制序列,取值0或1。
    M = B[m-1]*pow(2,m-1) + B[m-2]*pow(2,m-2) + ... + B[1]*pow(2,1) + B[0]*pow(2,0)
    N = b[n-1]*pow(2,n-1) + b[n-2]*pow(2,n-2) + ... + b[1]*pow(2,1) + n[0]*pow(2,0)
    pow(N,2) = M

(1) N的最高位b[n-1]可以根据M的最高位B[m-1]直接求得。
    设 m 已知,因为 pow(2, m-1) <= M <= pow(2, m),所以 pow(2, (m-1)/2) <= N <=pow(2, m/2)
    如果 m 是奇数,设m=2*k+1,那么 pow(2,k) <= N < pow(2, 1/2+k) < pow(2, k+1),n-1=k, n=k+1=(m+1)/2
    如果 m 是偶数,设m=2k,那么 pow(2,k) > N >= pow(2, k-1/2) > pow(2, k-1),n-1=k-1,n=k=m/2
    所以b[n-1]完全由B[m-1]决定。
    余数 M[1] = M - b[n-1]*pow(2, 2*n-2)

(2) N的次高位b[n-2]可以采用试探法来确定。
    因为b[n-1]=1,假设b[n-2]=1,则 pow(b[n-1]*pow(2,n-1) + b[n-1]*pow(2,n-2),2) = b[n-1]*pow(2,2*n-2) + (b[n-1]*pow(2,2*n-2) + b[n-2]*pow(2,2*n-4)),然后比较余数M[1]是否大于等于 (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4)。这种比较只须根据B[m-1]、B[m-2]、...、B[2*n-4]便可做出判断,其余低位不做比较。
    若 M[1] >= (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4), 则假设有效,b[n-2] =1;
    余数 M[2] = M[1] - pow(pow(2,n-1)*b[n-1] + pow(2,n-2)*b[n-2], 2) = M[1] -(pow(2,2)+1)*pow(2,2*n-4);
    若 M[1] < (pow(2,2)*b[n-1] + b[n-2]) * pow(2,2*n-4), 则假设无效,b[n-2] =0;余数 M[2] = M[1]。

(3) 同理,可以从高位到低位逐位求出M的平方根N的各位。
使用这种算法计算32位数的平方根时最多只须比较16次,而且每次比较时不必把M的各位逐一比较,尤其是开始时比较的位数很少,所以消耗的时间远低于牛顿迭代法。

-----------------------------------------------------------

2、实现代码

这里给出实现32位无符号整数开方得到16位无符号整数的C语言代码。

unsigned int sqrt_16(unsigned long M)
{unsigned int N, i;unsigned long tmp, ttp;  // 结果、循环计数if (M == 0)  // 被开方数,开方结果也为0return 0;N = 0;tmp = (M >> 30);  // 获取最高位:B[m-1]M <<= 2;if (tmp > 1)   // 最高位为1{N ++;      // 结果当前位为1,否则为默认的0tmp -= N;}for (i=15; i>0; i--)   // 求剩余的15位{N <<= 1;     // 左移一位tmp <<= 2;tmp += (M >> 30);  // 假设ttp = N;ttp = (ttp<<1)+1;M <<= 2;if (tmp >= ttp)   // 假设成立{tmp -= ttp;N ++;}}return N;
}

-----------------------------------------------------------------------------------------------------------------

四、卡马克快速开平方算法(推荐)

1、C-Free模拟验证卡马克开平方

因为工作的需要,要在单片机上实现开根号的操作。卡马克快速开平方据说能比float sqrt(x)快4倍,下面有详细描述,见本节“3、卡马克快速开平方的由来”。在C-Free(MinGW及C-Free的使用)下模拟编译通过,计算结果准确度还是很高的。

本例使用的开平方子函数的源码如下:

float SquareRootFloat(float number)
{long i;float x, y;const float f = 1.5F;x = number * 0.5F;y  = number;i  = * ( long * ) &y;i  = 0x5f3759df - ( i >> 1 );  //卡马克
//   i  = 0x5f375a86 - ( i >> 1 );  //Lomonty  = * ( float * ) &i;y  = y * ( f - ( x * y * y ) );y  = y * ( f - ( x * y * y ) );return number * y;
}

-----------------------------------------------------------

2、移植到实际的项目

本项目较详细的介绍移步:STM32单片机-输入捕获、FFT测频,此“卡马克快速开平方算法”在量产的产品中已经实际使用多年(9年以上)。

-----------------------------------------------------------

3、卡马克快速开平方的由来

同志们!本部分如若不感兴趣,可以直接略过哦。取前面的代码使用即可,而且本代码在批量生产的项目中已经验证过。

1)Quake III中不可思议的求解平方根实现方法
任何一个3D引擎都是通过其内部的数学模型和实现工具来展现它的力量与速度的,and trust John Carmack of ID software for using really good hacks. 结果,Quake III中使用了一个非常有意思的技巧来计算平方根倒数(inverse square root)。 

------------------------------

2)前言
ID Software最近发布了它的带有GPL许可证的Quake III引擎源代码,在这篇文章中我们将会看到Carmark是怎样用他的Black Magic来极其迅速地计算一个浮点数的平方根。 

------------------------------

3)Carmack's不寻常平方根倒数
对文件game/code/q_math.c的快速一瞥就显示出了许多有趣的Performance Hacks。
第一个跳出来的便是对函数Q_rsqrt中对0x5f3759df的使用,这个数计算了一个浮点数的inverse square root,但是为什么这个函数有这样的功能呢?观察q_math.c原本的函数: 

float Q_rsqrt( float number ) 
{ long i; float x2, y; const float threehalfs = 1.5F; x2 = number * 0.5F; y  = number; i  = * ( long * ) &y; // evil floating point bit level hacking i  = 0x5f3759df - ( i >> 1 ); // what the fuck? y  = * ( float * ) &i; y  = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration // y  = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed #ifndef Q3_VM #ifdef __linux__ assert( !isnan(y) ); // bk010122 - FPE? #endif #endif return y; 
} 

它不仅有效,甚至在某些CPU上,Carmack的Q_rsqrt 比(float)(1.0/sqrt(x)的计算快4倍,尽管sqrt()通常使用的是FSQRT的汇编指令!

在另一个文件code/common/cm_trace.c 中,我们发现了更简洁的对同样Hack的实现。这一次,它被用来计算一个float - sqrt(x)的平方根。注意,其中的唯一不同是在返回值上:用返回*y取代了返回y。

float SquareRootFloat(float number) 
{long i; float x, y; const float f = 1.5F; x = number * 0.5F; y  = number; i  = * ( long * ) &y; i  = 0x5f3759df - ( i >> 1 ); y  = * ( float * ) &i; y  = y * ( f - ( x * y * y ) ); y  = y * ( f - ( x * y * y ) ); return number * y; 
} 

------------------------------

4)牛顿对根的近似值
上面的代码执行了众所周知的牛顿对根的近似值[3],像绝大多数其它迭代求近似值的计算一样,牛顿近似值假定是迭代的;每一次迭代都增强了它的准确度直至达到需要的准确度。 

在牛顿近似值中的一般想法是猜测一个数x的平方根值y,可能通过一个简单的操作,用x/y拉平y来取得更好的猜测,使其更接近实际的平方根。例如,像下面这样计算2的平方根,假定初始的猜测是1: 

2/1 = 2 ;  (2 + 1) / 2 = 1.5 

2/1.5 = 1.3333; ( 1.5 + 1.3333 ) / 2 = 1.4167 

2/1.4167 = 1.4117;  ( 1.4167 + 1.4117 ) / 2 = 1.4142 

And so on... 
如前面所提到的,牛顿的近似值是一个大家所熟知的用以快速计算平方根的方法。但是,Carmack在初始的猜测中就选取了不寻常的值,彻底加强了准确度并且将Quake III中计算所要的值的迭代次数降到了1次!

------------------------------
5)魔数
函数中真正有意思的方面是神奇的常量0x5f3759df,用来计算初始猜测的,在i  = 0x5f3759df - ( i >> 1 ); 

因此,把输入除以2并从神奇常量中减去。这个常数工作起来几乎是完美的——对于一个 low relative error of 10^(-3)来说只要一次牛顿近似值迭代就够了。如评论中第二次迭代中展示的,这个近似值对Quake III引擎来说已经足够了。 

结果,这个神奇的常数0x5f3759df成了一个迷了,在文章"Fast Inverse Square Root" [2] ,普度大学的数学家Chris Lomont研究了这个常数,用了几种精细的技术,Lomont想自己用数学方法求出这个常数来,结果令人惊奇——Lomont用数学方法计算出来的最佳常数(0x5f37642f)有一点点不同,并且除了理论上强一些之外,它产生的结果并没有源代码中使用的原始常数好!确实,John Carmack 一定用了天才般的黑盒来找到这个常数。 

只在仅仅从数字上来找的方法中,Lomont找到了一个更好的常数,这个数比原始的那个强了那么一点点。然而,实践中两个常数产生了大概相同的结果,Lomont提出这个使用了更好的常数的函数: 

float InvSqrt(float x) 
{float xhalf = 0.5f*x; int i = *(int*)&x; // get bits for floating value i = 0x5f375a86- (i>>1); // gives initial guess y0 x = *(float*)&i; // convert bits back to float x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy return x; 
}

-----------------------------------------------------------------------------------------------------------------


http://chatgpt.dhexx.cn/article/1t6qJ7qL.shtml

相关文章

windows 区域截屏以及延迟截屏

提起在Windows&#xff0c; 我们都会用到截屏功能&#xff0c;今天论述一下window 10系统自带的截图应用Snipping Tool 打开Snipping Tool 找到任务栏下的放大镜图标&#xff0c;点击 在下方输入snipping&#xff0c;会在左侧找到截图软件Snipping Tool&#xff0c;点击可进入…

小米手机解决此区域不可截屏

小米手机解决此区域不可截屏 无意中暂停视频弹出消息&#xff0c;想试试可不可以截屏竟然可以截屏&#xff0c;但是视频一播放就截屏不了了&#xff0c;录屏也是&#xff0c;直接变黑或者是直接提示弹窗&#xff0c;嘻嘻嘻嘻小米bug还是有好处滴

浏览器网页截屏实用小技巧

浏览器开发者工具中自带的截屏太方便了&#xff01; 打开开发者工具&#xff0c;输入 ctrl shift P 快捷键&#xff0c;输入screenshot&#xff0c;出现了四个选项&#xff0c;分别是&#xff1a; 1.area screenshot - 区域截图 2.full size screenshot - 对浏览器所有内容…

如何利用计算机截屏快捷键,电脑怎么截图 电脑选区域截图怎么截 电脑截图快捷键是什么...

电脑怎么截图 按照操作上从易到难的顺序&#xff0c;给你推荐五种截屏方式 &#xff1a; 第一种&#xff1a;Ctrl PrScrn 使用这个组合键截屏&#xff0c;获得的是整个屏幕的图片; 第二种&#xff1a;Alt PrScrn 这个组合键截屏&#xff0c;获得的结果是 当前窗口的图片; 第三…

iOS 截屏指定区域

转自&#xff1a;链接&#xff1a;https://www.jianshu.com/p/39db0fa66c0e 指定截屏代码实现 全屏截图效果 全屏截图效果 指定区域截屏效果 指定区域截屏效果 这里先上代码&#xff0c;代码后面有相关方法的解释第一种方法代码下载 /**创建一个基于位图的上下文&#xff0…

windows如何截屏

截屏是我们平时工作或记录常用的操作&#xff0c;不过有人不知道怎么用系统截屏&#xff0c;今天&#xff0c;小编带来了系统的几种截屏&#xff0c;让我们来看看吧&#xff01; 一、快捷键截图 1. Win shift S&#xff1a;可以选择截图区域的大小&#xff0c;CtrlV粘贴在w…

Android 任意区域截屏

1、全屏截图 Android其实可以做到任意区域截屏&#xff0c;不过我们先来看看整个屏幕截图代码&#xff0c;相信大家很熟悉&#xff0c;代码如下 View decorView activity.getWindow().getDecorView(); decorView.setDrawingCacheEnabled(true); view.buildDrawingCache(); /…

snipaste 固定位置截屏

原文参考&#xff1a; snipaste怎么固定位置截图&#xff0c;如何统一大小截图 一、电脑点击【snipaste】&#xff0c;或者点击键盘的“F1”。 二、在图片&#xff0c;根据自己的需求&#xff0c;画出截图的位置和大小&#xff0c;比如&#xff1a;本篇是500*296。 三、点击右…

JavaScript实现浏览器特定区域截屏和下载功能

JavaScript实现浏览器特定区域截屏功能 需求介绍尝试一&#xff1a;使用Jtopo.js自带的保存图片方法&#xff08;不能对资源进行下载&#xff09;尝试二&#xff1a;对saveImageInfo进行改写&#xff08;功能能用&#xff0c;但是会因为跨域问题污染canvas&#xff09;&#xf…

Unity中的截图方法(包括全屏截图、区域截图、Camera截图和摄像头截图)

Unity中的截图方法&#xff08;包括全屏截图、区域截图、Camera截图和摄像头截图&#xff09; Application.CaptureScreenshotScreenCapture Texture2D.ReadPixels视口截图RenderTexture&#xff08;Camera截图&#xff09;WebCamTexture&#xff08;摄像头截图、照相&#xff…

实现区域截图功能

利用QQ或微信自带的截图功能实现区域截图。 在腾讯安装目录下找到PrScrn.dll&#xff0c;并将它放在需要的位置&#xff0c; 将D:/PrScrn.dll修改为你的目录。 如果在maya里面直接使用该代码 import os,subprocess from PySide2.QtWidgets import QApplication clipboard …

小米手机怎么截屏?小米手机区域截屏

小米手机怎么截屏&#xff1f;手机的截屏其实都是差不多的&#xff0c;基本上都是三指向下滑动而达到截屏效果的&#xff0c;但基本都是全屏截图。小米手机区域截屏怎么做&#xff1f;如果想要做到任意位置的那种区域块截屏的话&#xff0c;该怎么做&#xff1f;下面就来看看吧…

浏览器截图方法(长截图、node截图、指定区域截图)

1.打开需要截屏的页面&#xff0c;按键盘上的F2&#xff08;或者CtrlShiftI&#xff09;打开浏览器控制台 2.CtrlshiftP进入搜索框&#xff0c;输入“screen”: 这里有四种截图模式&#xff0c;点击需要的截图方式即可截取图片。

Windows关闭指定端口命令

假设要关闭端口号为3003&#xff0c;使用下面的命令&#xff0c;查出此端口号对应的PID netstat -ano|findstr 3003 上图红框内的 22876 就是3003端口对应的PID&#xff0c;再使用下面的命令就可以关闭这个端口了 taskkill /PID 22876 /F

Linux关闭端口

netstat -anp | grep xxx //查看端口是否被占用kill -9 10762 //即可关闭端口

linux开放端口和关闭端口

centos6&#xff1a; 关闭防火墙:service iptables stop 开启防火墙:service iptables start 防火墙状态:service iptables status 永久关闭:chkconfig iptables off 永久开启:chkconfig iptables on 方法一(命令): 1. 开放端口命令&#xff1a; /sbin/iptables -I INPUT…

[NLP自然语言处理]谷歌BERT模型深度解析

BERT模型代码已经发布&#xff0c;可以在我的github: NLP-BERT--Python3.6-pytorch 中下载&#xff0c;请记得start哦 目录 一、前言 二、如何理解BERT模型 三、BERT模型解析 论文的核心&#xff1a;详解BERT模型架构 关键创新&#xff1a;预训练任务 实验结果 四、BERT模型…

深度学习:BERT模型

BERT模型 BERT出自https://arxiv.org/pdf/1810.04805.pdf的全称是Bidirectional Encoder Representation from Transformers&#xff0c;即双向Transformer的Encoder。作为一个Word2Vec的替代者&#xff0c;其在NLP领域的11个方向大幅刷新了精度&#xff0c;可以说是近年来自残…

BERT模型系列大全解读

前言 本文讲解的BERT系列模型主要是自编码语言模型-AE LM&#xff08;AutoEncoder Language Model&#xff09;&#xff1a;通过在输入X中随机掩码&#xff08;mask&#xff09;一部分单词&#xff0c;然后预训练的主要任务之一就是根据上下文单词来预测这些单词&#xff0c;从…

BERT模型的深度解读

一、BERT整体概要 Bert由两部分组成&#xff1a; 预训练&#xff08;Pre-training&#xff09;:通过两个联合训练任务得到Bert模型微调&#xff08;Fine-tune&#xff09;&#xff1a;在预训练得到bert模型的基础上进行各种各样的NLP 二、预训练 输入经过bert encoder层编…