如何花式计算20的阶乘?

article/2025/4/29 11:28:57

今天刷知乎看到个挺有意思的问题:「如何优雅地利用c++编程从1乘到20?」

如何优雅地利用c++编程从1乘到20?

我想这有啥难的,还能写出花来不成?结果看到高赞回答,感觉自己的智商有点不够用了。

随便来看一个高赞回答是怎么写的:

v2-341baab8bb3eb2fff6c4d0d071c13ecf_b.jpg

这个其实还算比较简单的,没啥难度,还有更晦涩的:

v2-102797ea2ef26c16ea81e55d865169a9_b.jpg

这个乍一看根本看不懂在写啥,当然平时也很少会写这种晦涩的代码。

CUDA花式整活!

今天我就教大家用CUDA来计算一下20的阶乘,就当作是CUDA的一个入门例子。

先来看看我的回答:

如何优雅地利用c++编程从1乘到20?

我提供了两种CUDA的实现方法。

方法1

#include <iostream>

typedef unsigned long long int ull;
const int N = 20;__device__ ull atomicMul(ull* address, ull val) {ull *address_as_ull = (ull *)address;ull old = *address_as_ull, assumed;do {assumed = old;old = atomicCAS(address_as_ull, assumed, val * assumed);} while (assumed != old);return old;
}__global__ void mul(ull *x) {ull i = threadIdx.x + 1;atomicMul(x, i);
}int main() {ull *x;cudaMallocManaged(&x, sizeof(ull));x[0] = 1;mul<<<1, N>>>(x);cudaDeviceSynchronize();std::cout << x[0] << std::endl;cudaFree(x);return 0;
}

这个方法使用原子操作,一共20个线程,每个线程负责一个乘数,然后一起乘到x[0]上。

但是由于并行执行,线程之间没有先后顺序,会导致同时乘的时候产生冲突,所以需要使用原子操作。在某一个线程将它的乘数乘到x[0]上时,不会被其他线程打断。也就是会加锁,同一时刻只会有一个线程在进行乘法操作。

但是由于CUDA只提供了加法和减法的原子操作(atomicAddatomicSub),所以得自己实现乘法的原子操作atomMul,利用的是atomicCAS操作,也就是compare and swap ,如果目标地址元素和待比较的元素相同,就进行元素的交换,否则不进行任何操作。

可以看出,在atomicMul函数的do while循环中,先用old变量保存x[0]处的当前值,这时候如果有其他线程在x[0]处写入了新的值,那么接下来该线程的atomicCAS操作就会判断元素不相同,不进行任何操作,重新执行下一轮循环。

方法2

#include <iostream>

typedef unsigned long long int ull;
const int N = 20;
const int WARP_SIZE = 32;__global__ void mul(ull *x) {int i = threadIdx.x;ull val = x[i];for (int mask = WARP_SIZE / 2; mask > 0; mask >>= 1)val *= __shfl_xor_sync(WARP_SIZE - 1, val, mask, WARP_SIZE);x[i] = val;
}int main() {ull *x;cudaMallocManaged(&x, WARP_SIZE * sizeof(ull));for (int i = 0; i < WARP_SIZE; ++i)x[i] = i < N ? i + 1 : 1;mul<<<1, WARP_SIZE>>>(x);cudaDeviceSynchronize();std::cout << x[0] << std::endl;cudaFree(x);return 0;
}

这种方法使用线程束原语__shfl_xor_sync,只要线程在同一个线程束中(32个线程),就可以获取其他线程的值,异或运算后写入指定地址。详细原理这里就不解释了,可以简单理解为:

  • 一共进行5轮操作。
  • 第一轮操作之后,下标为0-15的位置分别保存着下标0+1、2+3、一直到30+31的结果。
  • 第二轮操作之后,下标为0-7的位置分别保存着下标0+1+2+3、4+5+6+7、一直到28+29+30+31的结果。
  • 最后一轮之后,下标为0的位置保存着所有32个元素之和。

所以只需要在开始时,分配一个大小为32的数组,前20个元素分别保存1-20,后面12个元素是为了满足线程束大小32的条件,赋值为1就行了。

方法2改进

方法2需要额外开辟大小为32的数组,空间存在浪费,并且数组赋值也需要时间。

感谢 @NekoDaemon 老哥提供的优化建议,只需要在计算的时候根据线程号计算对应乘积元素就行,但是线程数仍然需要分配32个。

#include <iostream>

typedef unsigned long long int ull;
const int N = 20;
const int WARP_SIZE = 32;__global__ void mul(ull *x) {int i = threadIdx.x;ull val = i < N ? i + 1 : 1;for (int mask = WARP_SIZE / 2; mask > 0; mask >>= 1)val *= __shfl_xor_sync(WARP_SIZE - 1, val, mask, WARP_SIZE);if (!i) x[i] = val;
}int main() {ull *x;cudaMallocManaged(&x, sizeof(ull));mul<<<1, WARP_SIZE>>>(x);cudaDeviceSynchronize();std::cout << x[0] << std::endl;cudaFree(x);return 0;
}

执行结果

代码保存为run.cu,然后执行nvcc run.cu -o run,最后执行./run,就会出来结果2432902008176640000。

今天没有讲解CUDA编程的基础概念,适合有一定基础的同学阅读,如果有对CUDA感兴趣的同学,可以在评论区留言,下次专门写一个CUDA入门系列教程。关注我的公众号【算法码上来】,每天跟进最新文章。

http://chatgpt.dhexx.cn/article/tut3ScPL.shtml

相关文章

chatgpt赋能Python-python20的阶乘

Python20的阶乘&#xff1a;介绍和计算方法 如果你正在学习Python编程&#xff0c;那么你一定听说过阶乘&#xff08;factorial&#xff09;。Python20&#xff0c;也就是2的20次方&#xff0c;是一个非常大的数字&#xff0c;计算它的阶乘是很困难的。本文将介绍什么是阶乘&a…

7、Callable接口

7.1、Calledable接口与Runnable接口的区别 是否有返回值 Calledable 有返回值&#xff1b;Runnable无返回值 是否抛出异常 Calledable 会抛出异常&#xff1b;Runnable不会抛出异常 实现方法名称不同 Calledable 实现的是call方法&#xff1b;Runnable实现的是run方法 7…

第五篇、Callable接口实现多线程

文章目录 前言一、实现Callable接口二、代码示例1.Callable接口实现多线程 总结 前言 上一篇我们共同认识了并发问题&#xff0c;那么本篇我们将一起来学习Callable接口实现多线程。 一、实现Callable接口 上篇内容我们通过实现Runnable实现多线程&#xff0c;本篇我们将学习…

高并发之——深入解析Callable接口

本文纯干货&#xff0c;从源码角度深入解析Callable接口&#xff0c;希望大家踏下心来&#xff0c;打开你的IDE&#xff0c;跟着文章看源码&#xff0c;相信你一定收获不小。 1.Callable接口介绍 Callable接口是JDK1.5新增的泛型接口&#xff0c;在JDK1.8中&#xff0c;被声明…

简单理解Callable接口

Callable接口: Callable,新启线程的一种方式,返回结果并且可能抛出异常的任务,在前面的新启线程的文章中用过,但是没有具体讲解 优点: 可以获取线程的执行结果,也称为返回值 通过与Future的结合,可以实现利用Future来跟踪异步计算的结果 Runnable和Callable的区别: Callable规定…

从源码角度详解Java的Callable接口

摘要&#xff1a;本文从源码角度深入解析Callable接口。 本文分享自华为云社区《深入解析Callable接口》&#xff0c;作者&#xff1a; 冰 河 。 本文纯干货&#xff0c;从源码角度深入解析Callable接口&#xff0c;希望大家踏下心来&#xff0c;打开你的IDE&#xff0c;跟着文…

Callable 接口实现java 的多线程

java 中创建多线程最常见的是继承Thread 的子类重写run() 方法&#xff0c;还有就是实现Runnable 接口 我们最好使用实现了Runnable 接口的方法原因有两点&#xff1a; ①因为java 的单继承的特点&#xff0c;所以说使用第一种方法不能继承其他父类了 ②采用接口的方式便于实现…

Callable接口的使用和介绍

Callable public interface Callable<V>返回结果并可能引发异常的任务。 实现者定义一个没有参数的单一方法&#xff0c;称为call 。 Callable接口类似于Runnable &#xff0c;因为它们都是为其实例可能由另一个线程执行的类设计的。 然而&#xff0c;A Runnable不返回…

实现Callable接口

一、实现Callable接口 实现Callable接口&#xff0c;需要返回值类型重写call方法&#xff0c;需要抛出异常创建目标对象创建执行服务: ExecutorService ser Executors.newFixedThreadPool(1);提交执行: Future result1 ser.submit(t1);获取结果: boolean r1 result1 .get()…

Callable接口的理解

Callable接口的定义 FunctionalInterface public interface Callable<V> {V call() throws Exception; }可以看出Callable就是一个拥有call方法的接口&#xff0c;可以把线程中需要执行过程定义到call方法中&#xff0c;跟Runnable接口一样&#xff0c;最终的执行还是需…

java callable接口_Java Callable接口

一 理论 Runnable是执行工作的独立任务&#xff0c;但是不返回任何值。如果我们希望任务完成之后有返回值&#xff0c;可以实现Callable接口。在JavaSE5中引入的Callable是一个具有类型参数的范型&#xff0c;他的类型参数方法表示为方法call()而不是run()中返回的值&#xff0…

6.实现 Callable 接口

6.实现 Callable 接口 前言 本篇章来介绍一下创建线程的第三种方式&#xff0c;其中创建线程一共有四种方式&#xff1a; 继承 Thread 类 实现 Runnable 接口 实现 Callable 接口 使用线程池的方式 那么下面我们来介绍一下 实现 Callable 接口的方式。 Callable 接口 - Jav…

3、创建线程方式三:实现Callable接口

一、步骤 1、定义一个线程任务类实现Callable接口&#xff0c;声明线程执行的结果类型。 2、重写线程任务类的call()方法&#xff0c;这个方法可以直接返回执行的结果。 3、创建一个Callable的线程任务对象。 4、把Callable的线程任务对象包装成一个未来任务对象。 5、把未来任…

JUC之Callable接口

Callable 创建线程有四种方式: 继承Thread类实现Runnable接口Callable接口线程池 前两种前面说过了, Runnable接口是比较常用的, 因为在Java中继承是很重要的, 不能随便使用, 但是Runnable接口有一个缺点, run()方法没有返回值, 也就是当线程结束时, 不能返回结果, 为了能返…

Java多线程 - Runnable接口和Callable接口的区别

文章目录 1. Runnable接口实例2. Callable接口原理3. Callnable接口实例4. FutureTask是什么&#xff1f;5. 线程池中 submit() 和 execute() 方法有什么区别&#xff1f; Runnable接口源码&#xff1a; FunctionalInterface public interface Runnable {// 这个run()方法返回值…

Callable 接口

Callable 接口 是 java.util.concurrent.下的一个泛型接口 , 只有一个call () 方法 , 它是有返回值的 , 我们可以获取多线程执行的结果 , 使用 Callable接口 和 FutureTask 的组合 , 可以实现利用 FutureTask 来跟踪异步计算的结果 获取多线程的方式 1. 继承 Thread 类 2. 实…

Java用Callable接口创建线程

一、概述 使用Callable接口创建线程能够返回数据。与Runnable接口创建线程的方式有点类似&#xff0c;也是需要通过Thread类来创建线程。由于Thread类的构造函数中没有Callable接口&#xff0c;选用了FutureTask类来作为连接创建线程。  FutureTask类实现了RunnableFuture接口…

JUC-多线程(5.获得线程的第三种方式)学习笔记

文章目录 获得线程的第三种方式 &#xff1a; Callable接口 1. 前言1. 获得多线程的方法几种&#xff1f;2. 以下两种获得线程的方式的异同 2. 使用1. 重写 call 方法2.创建线程3.获取返回值 3. 原理1. 简述2. 解释3. 结论 获得线程的第三种方式 &#xff1a; Callable接口 1.…

Callable接口

文章目录 Callable概述Future 接口FutureTask使用 Callable 和 Future小结(重点) Callable概述 目前我们学习了有两种创建线程的方法-一种是通过创建 Thread 类&#xff0c;另一种是通过使用 Runnable 创建线程。但是&#xff0c;Runnable 缺少的一项功能是&#xff0c;当线程…

webshell管理工具之中国蚁剑

实验环境物理机即可 实验工具&#xff1a;中国蚁剑&#xff0c;phpstudy,dvwa网站 一&#xff1a;打开phpstudy开启apache和mysql 1&#xff1a;将dvwa网站放到www目录下 2&#xff1a;用浏览器进行访问 3&#xff1a;登录dvwa网站进行低等级下的文件上传 4&#xff1a;编写…