最新CUDA环境配置(Win10 + CUDA 11.6 + VS2019)

article/2025/9/7 4:19:52

最新CUDA环境配置(Win10 + CUDA 11.6 + VS2019)

本篇博客根据NVIDIA 官方文档所述, 并根据自己实践得出. 供各位需要的朋友参考.

1.前言

本篇文章的软件环境为:

  • Windows 10
  • CUDA 11.6
  • VS2019

CUDA是目前做人工智能, 深度学习等方向的必备工具库. 由CUDA衍生出的加速工具很多, 如: cuDNN, TensorRT, cuBLAS等HPC加速库, 或者涉及最新的元宇宙概念中的Omniverse等.

在很多时候, 非常多的NVIDIA加速库的底层加速方案都是CUDA. 我们可能在绝大多数时候不会直接利用CUDA写代码, 但是了解CUDA如何运转或者基本概念一定能让你如虎添翼.

如果大家感兴趣也可以查看本人翻译的官方的CUDA编程手册,希望能帮到大家.
https://blog.csdn.net/kunhe0512/category_11774233.html

2.VS 2019

对于VS, 我用的其实极少. 本人从一开始就被老板带进了Vim + Makefile的环境. 这里简单提一下.

目前我用的是VS2019, 大家可以根据自己需要下载所需版本, 下面是链接地址.
https://visualstudio.microsoft.com/zh-hans/vs/

在这里插入图片描述

这里需要重点提的是, 尽量把使用C++的桌面开发选择上.后续在用CMake的时候会比较方便.

3.CUDA下载

CUDA官方安装教程: https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html

CUDA Toolkit的下载: https://developer.nvidia.com/cuda-downloads

点击上述下载页面之后, 你会看到:
在这里插入图片描述

你需要自己选择你的操作系统, 系统架构, 系统版本 和 安装方式.

选择完成之后, 点击 Download(2.5 GB) 的按钮,就可以下载了.

当然, 如果你想安装历史版本(更早期的版本), 那么也可以点击下面的Archive of Previous CUDA Releases来下载, 操作方法同上.

下载好之后, 你就可以看到以下图标:

在这里插入图片描述

4.安装配置

双击你下载的CUDA Toolkit, 你就会看到工具包的解压路径(推荐默认).

在这里插入图片描述

解压完毕之后, 就开始安装了, 接下来点击同意并继续:
在这里插入图片描述

接下来设置安装选项, 这里推荐点击自定义(特别是第一次安装):

在这里插入图片描述

然后将能选的都选上, 很多东西可能你一开始用不上(比如nsight系统), 但是当你做的越来越多, 涉及的越来越深的时候就可能会用到.
在这里插入图片描述

然后选择安装路径, 这里也推荐默认, 毕竟是底层的调用库

在这里插入图片描述

接下来就不用你在操作了, 直到CUDA Toolkit 安装完毕.

5.环境变量

右键点击我的电脑(此电脑) --> 属性 --> 高级系统设置 --> 环境变量, 查看CUDA路径是否已经在系统中, 如果没有记得添加上.

在这里插入图片描述

6.测试CUDA安装是否成功

利用(Win + R)–>cmd, 打开系统终端命令行, 输入

nvcc -V

如果你看到如下结果, 证明你的CUDA已经安装完毕.
在这里插入图片描述

7.利用Visual Studio 2019 进行CUDA程序开发

打开已经安装好的VS 2019, 选择创建新项目:
在这里插入图片描述

选择CUDA 11.xx Runtime, 这里的xx代表你的版本.

在这里插入图片描述

给你的CUDA程序起个名字: Matrix_transpose
这里的名字随便起的, 因为我后面要写一个矩阵转置的示例,所以才用Matrix_transpose这个名字

在这里插入图片描述

创建之后, 你会发现里面已经有了一些代码, 那个是向量相加的示例. 你不用管他, 把kernel.cu中的代码删掉, 就可以开始你自己的开发了.

在这里插入图片描述

你可以尝试输入一下代码, 完成一个矩阵转置的实例:

#include <stdio.h>
#include <stdlib.h>
#include "error.cuh"#define TILE_DIM 32   //Don't ask me why I don't set these two values to one
#define BLOCK_SIZE 32
#define N 3001 // for huanhuan, you know that!__managed__ int input_M[N * N];      //input matrix & GPU result
int cpu_result[N * N];   //CPU result//in-place matrix transpose
__global__ void ip_transpose(int* data)
{__shared__ int tile_s[TILE_DIM ][TILE_DIM + 1];__shared__ int tile_d[TILE_DIM ][TILE_DIM + 1];int x = blockIdx.x * TILE_DIM + threadIdx.x;int y = blockIdx.y * TILE_DIM + threadIdx.y;//Threads in the triangle belowif (blockIdx.y > blockIdx.x) {int dx = blockIdx.y * TILE_DIM + threadIdx.x;int dy = blockIdx.x * TILE_DIM + threadIdx.y;if (x < N && y < N){tile_s[threadIdx.y][threadIdx.x] = data[(y)*N + x];}if (dx < N && dy < N){tile_d[threadIdx.y][threadIdx.x] = data[(dy)*N + dx];}__syncthreads();if (dx < N && dy < N){data[(dy)*N + dx] = tile_s[threadIdx.x][threadIdx.y];}if (x < N && y < N){data[(y)*N + x] = tile_d[threadIdx.x][threadIdx.y];}}else if (blockIdx.y == blockIdx.x)//Threads on the diagonal{if (x < N && y < N){tile_s[threadIdx.y][threadIdx.x] = data[(y)*N + x];}__syncthreads();if (x < N && y < N){data[(y)*N + x] = tile_s[threadIdx.x][threadIdx.y];}}
}void cpu_transpose(int* A, int* B)
{for (int j = 0; j < N; j++){for (int i = 0; i < N; i++){B[i * N + j] = A[j * N + i];}}
}int main(int argc, char const* argv[])
{cudaEvent_t start, stop_gpu;CHECK(cudaEventCreate(&start));CHECK(cudaEventCreate(&stop_gpu));for (int i = 0; i < N; ++i) {for (int j = 0; j < N; ++j) {input_M[i * N + j] = rand() % 1000;}}cpu_transpose(input_M, cpu_result);CHECK(cudaEventRecord(start));unsigned int grid_rows = (N + BLOCK_SIZE - 1) / BLOCK_SIZE;unsigned int grid_cols = (N + BLOCK_SIZE - 1) / BLOCK_SIZE;dim3 dimGrid(grid_cols, grid_rows);dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);ip_transpose << <dimGrid, dimBlock >> > (input_M);CHECK(cudaDeviceSynchronize());CHECK(cudaEventRecord(stop_gpu));CHECK(cudaEventSynchronize(stop_gpu));float elapsed_time_gpu;CHECK(cudaEventElapsedTime(&elapsed_time_gpu, start, stop_gpu));printf("Time_GPU = %g ms.\n", elapsed_time_gpu);CHECK(cudaEventDestroy(start));CHECK(cudaEventDestroy(stop_gpu));int ok = 1;for (int i = 0; i < N; ++i){for (int j = 0; j < N; ++j){if (fabs(input_M[i * N + j] - cpu_result[i * N + j]) > (1.0e-10)){ok = 0;}}}if (ok){printf("Pass!!!\n");}else{printf("Error!!!\n");}return 0;
}

点击运行之后, 你就可以看到如下结果:

在这里插入图片描述

OK, 到这里你就完成了CUDA环境的搭建, 并且写了第一个CUDA程序


http://chatgpt.dhexx.cn/article/toBptUDD.shtml

相关文章

一文搞懂CUDA

什么是cuda 统一计算设备架构&#xff08;Compute Unified Device Architecture, CUDA&#xff09;&#xff0c;是由NVIDIA推出的通用并行计算架构。解决的是用更加廉价的设备资源&#xff0c;实现更高效的并行计算。 CUDA是NVIDIA公司所开发的GPU编程模型&#xff0c;它提供…

GPU,CUDA,cuDNN的理解

我们知道做深度学习离不开GPU,不过一直以来对GPU和CPU的差别,CUDA以及cuDNN都不是很了解,所以找了些资料整理下,希望不仅可以帮助自己理解,也能够帮助到其他人理解。 先来讲讲CPU和GPU的关系和差别吧。截图来自资料1(CUDA的官方文档): 从上图可以看出GPU(图像处理器,…

CUDA编程之快速入门

CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架构。做图像视觉领域的同学多多少少都会接触到CUDA,毕竟要做性能速度优化,CUDA是个很重要的工具,CUDA是做视觉的同学难以绕过的一个坑,必须踩一踩才踏实。CUDA编程真的是入门容易精通难,具有计算机体…

CUDA学习

想想学习CUDA的时间也应该有十来天了&#xff0c;也该是做一个小总结了&#xff0c;说说我理解的CUDA&#xff0c;它到底是什么东西&#xff1f; 其实说到CUDA&#xff0c;还真的没几个人知道&#xff0c;说实话&#xff0c;我也听说不久&#xff0c;主要因为它2007年才刚发布&…

CUDA简介

CUDA简介 CUDA是什么 CUDA&#xff0c;Compute Unified Device Architecture的简称&#xff0c;是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs&#xff08;Graphics Processing Units,可以通俗的理解为显卡&#xff09;的一个并行计算平台和编程模型。 通过CUDA&#…

CUDA是什么-CUDA简介

在大家开始深度学习时&#xff0c;几乎所有的入门教程都会提到CUDA这个词。那么什么是CUDA&#xff1f;她和我们进行深度学习的环境部署等有什么关系&#xff1f;通过查阅资料&#xff0c;我整理了这份简洁版CUDA入门文档&#xff0c;希望能帮助大家用最快的时间尽可能清晰的了…

java队列和栈 共同_java 栈和队列的模拟--java

栈的定义&#xff1a;栈是一种特殊的表这种表只在表头进行插入和删除操作。因此&#xff0c;表头对于栈来说具有特殊的意义&#xff0c;称为栈顶。相应地&#xff0c;表尾称为栈底。不含任何元素的栈称为空栈。 栈的逻辑结构&#xff1a;假设一个栈S中的元素为an,an-1,..,a1&am…

栈和队列学习总结

一、栈 1、特点及应用 先进后出。(如果会和队列先进先出记混的话,就记场景吧:弹栈弹栈,就是把最上面的最新进来的弹出去;而队列就像我们火车站排队检票出站一样,谁排在前面谁就先出去。) 应用的话,其实我们经常接触呀。比如Undo操作(就是撤销操作)就是使用的栈的思想…

栈和队列的共同点和不同点

堆栈都是一种数据项按序排列的数据结构&#xff0c;只能在一端(称为栈顶(top))对数据项进行插入和删除。 要点&#xff1a;堆&#xff1a;顺序随意 栈&#xff1a;后进先出(Last-In/First-Out) 堆 堆&#xff1a;什么是堆&#xff1f;又该怎么理解呢&#xff1f; ①堆通常是一…

栈和队列实现和实例分析

目录 前言栈队列实例分析结语 前言 本篇文章主要讲述数据结构中栈和队列的实现&#xff0c;以及相关实例分析。 栈 注意本文所讲述的栈是数据结构的一种&#xff0c;并不是内存划区中的栈区&#xff0c;但是这两者有相似之处&#xff0c;即&#xff1a;存储数据时满足数据先…

栈和队列的共同处和不同处

共同处 栈和队列的共同处是&#xff1a;它们都是由几个数据特性相同的元素组成的有限序列&#xff0c;也就是所谓的线性表。 不同处 队列 队列&#xff08;queue&#xff09;是限定仅在表的一端插入元素、在另一端删除元素的线性表。 在队列中&#xff0c;允许插入的一端被…

索引的优缺点以及索引的设计原则

索引概述 索引&#xff08;index&#xff09; 是帮助 MySQL 高效获取数据的数据结构&#xff08;有序&#xff09;。 在数据之外&#xff0c;数据库系统还维护者满足特定查找算法的数据结构&#xff0c;这些数据结构以某种方式引用&#xff08;指向&#xff09;数据&#xff0…

SQL数据库之索引优缺点

SQL数据库之索引使用原则及利弊 索引是对数据库表中一列或多列的值进行排序的一种结构&#xff0c;使用索引可快速访问数据库表中的特定信息。 优点 通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。 可以大大加快数据的检索速度&#xff0c;这也是创建…

Oracle索引的建立及优缺点

在看公司建表语句时发现了这样一段代码 本着学习的态度面向百度&#xff1a;&#xff1a;&#xff1a;&#xff1a;&#xff1a; 原来这是Oracle的索引 Oracle的索引说明 1&#xff09;索引是数据库对象之一&#xff0c;用于加快数据的检索&#xff0c;类似于书籍的索引。在…

MySQL索引的优缺点

MySQL 中的索引简介 1、索引的优点 为什么要创建索引&#xff1f;这是因为&#xff0c;创建索引可以大大提高系统的查询性能。 第一、通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。 第二、可以大大加快数据的检索速度&#xff0c;这也是创建索引的最…

MySQL索引的使用知识有哪些?

面试造火箭&#xff0c;工作拧螺丝&#xff0c;虽然工作时我们都在使用基本的 sql&#xff0c;但是不好意思&#xff0c;面试 90% 都在问原理&#xff0c;例如索引&#xff0c;锁&#xff0c;日志&#xff0c;引擎啊等等。 在关系数据库中&#xff0c;索引是一种单独的、物理的…

索引的数据结构与优缺点

1、索引的数据结构 什么是索引&#xff1f; 索引就是mysql为了提高查询数据的一种数据结构。在数据之外&#xff0c;数据库系统还维护着满足特定查找算法 的数据结构&#xff0c;这些数据结构以某种方式引用(指向)数据&#xff0c;这样就可以在这些数据结构上实现高级查找 算法…

Oracle 数据库:ORA-12541: TNS: 无监听程序 的解决办法

路径下D:\app\ou\product\11.2.0\dbhome_1\NETWORK\ADMIN host后面地址全改为 " HOSTlocalhost " 。 以上两个配置文件修改完成后&#xff0c;Win R 在弹出框中输入 " SERVICES.MSC " &#xff0c;找到Oracle的服务&#xff08;OracleService&#xff09;…

ora12541+tns-01153未能处理字符串

操作系统&#xff1a; windows2008 数据库&#xff1a;oracle11g 数据库运行中突然连接不上 ora12541TNS:无监听程序 数据库服务器端查看&#xff1a; 使用dos端sqlplus登录正常 重启Oracle服务依然无法登陆 ora12541TNS plsql无法连接 使用 lsnrctl status 查看监听状态…

plsql远程访问数据库 解决 ora12170TNS 连接超时,ora-12541:TNS:无监听程序

自己在虚机linux安装了o12版本后&#xff0c;计划通过wins主机通过plsql操作oracle&#xff0c; 结果没有顺利链接&#xff0c;plsql报错 排错步骤: 1.查看网络是否通畅 打开cmd, ping 数据库IP 2. 查看端口是否通畅 打开cmd,tnsping 数据库IP 如果piing不通,可能是防火墙问…