Internal: Invoking ptxas not supported on WindowsRelying on driver to perform ptx compilation.

article/2025/9/13 14:45:39

原环境:Windows 10, gpu 3090, TF 1.15,cuda_10.0.130_411.31_win10,cuDNN 7.6.5.32

mask-rcnn框架,运行train.py报错信息如下:

image_id 333
image_id 32
image_id 58
2022-01-01 19:03:07.415032: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library cublas64_100.dll
2022-01-01 19:03:07.940270: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library cudnn64_7.dll
2022-01-01 19:03:10.735250: W tensorflow/stream_executor/cuda/redzone_allocator.cc:312] Internal: Invoking ptxas not supported on Windows
Relying on driver to perform ptx compilation. This message will be only logged once.
2022-01-01 19:03:11.407229: E tensorflow/core/kernels/gpu_utils.cc:81] Detected cudnn out-of-bounds write in convolution buffer! This is likely a cudnn bug. We will skip this algorithm in the future, but your GPU state may already be corrupted, leading to incorrect results. Within Google, no action is needed on your part. Outside of Google, please ensure you're running the latest version of cudnn. If that doesn't fix the problem, please file a bug with this full error message and we'll contact nvidia.
2022-01-01 19:03:11.407917: E tensorflow/core/kernels/gpu_utils.cc:89] Redzone mismatch in RHS redzone of buffer 0x23a0b14e00 at offset 2074880; expected ffffffffffffffff but was c36a9040c1c7adfd.
2022-01-01 19:03:13.088660: E tensorflow/stream_executor/cuda/cuda_blas.cc:428] failed to run cuBLAS routine: CUBLAS_STATUS_EXECUTION_FAILED
2022-01-01 19:03:13.092186: I tensorflow/stream_executor/stream.cc:4925] [stream=0000020D32A8C060,impl=0000020D483DE380] did not memcpy device-to-host; source: 000000287B820400
2022-01-01 19:03:13.092398: I tensorflow/stream_executor/stream.cc:4963] [stream=0000020D32A8C060,impl=0000020D483DE380] did not memzero GPU location; source: 000000B14A13DED8
2022-01-01 19:03:13.093517: I tensorflow/stream_executor/stream.cc:316] did not allocate timer: 000000B14A13DE80
2022-01-01 19:03:13.092790: I tensorflow/stream_executor/stream.cc:5418] [stream=0000020D32A8C060,impl=0000020D483DE380] Internal: stream did not block host until done; was already in an error state
2022-01-01 19:03:13.093984: I tensorflow/stream_executor/stream.cc:1964] [stream=0000020D32A8C060,impl=0000020D483DE380] did not enqueue 'start timer': 000000B14A13DE80
2022-01-01 19:03:13.094764: W tensorflow/core/kernels/gpu_utils.cc:65] Failed to check cudnn convolutions for out-of-bounds reads and writes with an error message: 'stream did not block host until done; was already in an error state'; skipping this check. This only means that we won't check cudnn for out-of-bounds reads and writes. This message will only be printed once.
2022-01-01 19:03:13.095431: I tensorflow/stream_executor/stream.cc:1976] [stream=0000020D32A8C060,impl=0000020D483DE380] did not enqueue 'stop timer': 000000B14A13DE80
2022-01-01 19:03:13.097421: F tensorflow/stream_executor/gpu/gpu_timer.cc:65] Check failed: start_event_ != nullptr && stop_event_ != nullptr Process finished with exit code -1073740791 (0xC0000409)

解决方法:

TF 1.12.0/CUDA 9.0/cuDNN 7.3.1.20

 Invoking ptxas not supported on Windows · Issue #7640 · tensorflow/models · GitHub


http://chatgpt.dhexx.cn/article/kG9jyaCJ.shtml

相关文章

Matlab里.cu函数转ptx文件常见错误

错误类型: nvcc fatal : Cannot find compiler ‘cl.exe’ in PATHwarning C4819: 该文件包含不能在当前代码页(936)中表示的字符。请将该文件保存为 Unicode 格式以防止数据丢失 ;fatal error C1083: 无法打开包括文件: “mat.h”: No such file or di…

vs cuda c/c++ 生成ptx配置

在编译cu文件生成ptx文件 一:生成依赖项目 二:配置.cu属性,项目类型改为CUDA C/C 三:配置CUDA C/C属性 compiler output:输出的文件名; additional include directories: 包含库; nvcc compi…

the provided ptx was compiled with an unsupported toolchain

本人遇到这个问题的原因是,一个动态库在一个cuda驱动比较新的服务器上编译的,然后使用这个动态库,在cuda较老的驱动上运行 编译机器cuda版本信息 运行机器cuda版本信息

VS查看PTX代码

首先,声明本人用的是Windows 7操作系统,使用Windows 8操作系统的小伙伴们会启动不了Nsight monitor,原因在于Windows 8操作系统的Framework版本过新,解决办法可以是:安装一个版本旧一点的Matlab,安装起初会…

Nvidia Tensor Core-MMA PTX编程入门

目录 1 PTX (Parallel Thread Execution) 2 MMA (Matrix Multiply Accumulate) PTX 3 LDMATRIX PTX 4 示例 5 底层代码 6 其他 6.1 HGEMM优化 1 PTX (Parallel Thread Execution) PTX是什么,Nvidia官方描述为a low-level parallel thread execution virtual…

PTX ISA 7.4 参考手册翻译

文章目录 PTX Parallel Thread Execution ISA 7.4SynataxSource FormatCommentsStatementsinstruction identifiersInteger ConstantFloat-Point ConstantConstant expression整型常量表达式求值 State Spaces, Types, and Variables状态空间Kernel Function ParametersKernel …

CUDA PTX ISA阅读笔记(一)

不知道这是个啥的看这里:Parallel Thread Execution ISA Version 5.0. 简要来说,PTX就是.cu代码编译出来的一种东西,然后再由PTX编译生成执行代码。如果不想看网页版,cuda的安装目录下的doc文件夹里有pdf版本,看起来也…

CUDA进阶第二篇:巧用PTX

写在前面 并行线程执行(Parallel Thread eXecution,PTX)代码是编译后的GPU代码的一种中间形式,它可以再次编译为原生的GPU微码。CUDA 手册传送门:Parallel Thread Execution ISA Version 4.3 利用PTX来进行试验&…

一文了解GPU并行计算CUDA

了解GPU并行计算CUDA 一、CUDA和GPU简介二、GPU工作原理与结构2.1、基础GPU架构2.2、GPU编程模型2.3、软件和硬件的对应关系 三、GPU应用领域四、GPUCPU异构计算五、MPI与CUDA的区别 一、CUDA和GPU简介 CUDA(Compute Unified Device Architecture)&…

MPI 并行

MPI from b站视频 超算小白-灵犀学院 click (一)基本框架 头文件 mpi.h #include "mpi.h"初始化函数:MPI_Init( ) MPI_Init(int *argc, char ***argv)完成MPI程序初始化工作,通过获取main函数的参数,让…

C# 并行编程

一 并行任务库TPL 1 并行任务库(TPL,Task Parallel Library) 2 最重要的是Task类,还有Parallel类 3 Task类,是利用线程池来进行任务的执行 比如直接用ThreadPool更优化,而且编程更方便 4 Paallel类&…

并行处理及分布式系统

并行处理及分布式系统 1 为什么要并行计算 1.1 为什么需要不断提升性能 随着计算能力的增加,我们所面临的计算问题和需求也在增加随着技术的进步,我们从未想过的技术得到了解决,比如:人类基因解码、更准确的医疗成像、更快速准…

并行计算之MPI(一)

MPI学习 1. 了解并行计算 为什么要采用并行计算? (1)这是因为它可以加快速度即在更短的时间内解决相同的问题或在相同的时间内解决更多更复杂的问题特别是对一些新出现的巨大挑战问题; (2)节省投入并行计…

并行网关

1、并行网关 假设现在我们想在旁边放一份沙拉。无论如何,如果你想要沙拉,你可以像我们在图1.1中所做的那样建模。 图1.1:准备沙拉和主菜。 在这里,我们介绍了另一个符号:(文本)注释;这是一个您可以与任何流对象(在本…

并行计算:循环程序并行化的一般方法

一、数据划分和处理器指派 1. 带状划分方法 又叫做行列划分,就是将矩阵的整行或整列分成若干组,各组指派给一个处理器。 例如:设矩阵A由n行和m列,对其串行处理的程序段如下: for i1 to n dofor j1 to m doProcess(a[…

并行计算之MPI(三)

了解MPI 什么是MPI (1)MPI是一个库而不是一门语言,许多人认为MPI就是一种并行语言,这是不准确的。但是按照并行语言的分类可以把FORTRANMPI或CMPI。看作是一种在原来串行语言基础之上扩展后得到的并行语言,MPI库可以被…

并行计算的一些思考与总结

弗林分类法 根据弗林分类法,计算机结构主要分为 SIMD----单指令、多数据MIMD---多指令、多数据SISD----单指令、单数据MISD---多指令、单数据 一般的串行程序中为SISD,即在单核CPU下任何时间和地点只有一个指令处理一个数据,其所谓的多线程…

并行计算之MPI(二)

1.并行编程模型 目前两种最重要的并行编程模型是数据并行和消息传递数据并行编程模型的编程级别比较高编程相对简单但它仅适用于数据并行问题消息传递编程模型的编程级别相对较低但消息传递编程模型可以有更广泛的应用范围。 数据并行即将相同的操作同时作用于不同的数据因此…

Matlab 并行

Matlab 并行 1. 检查是否有并行附加功能2. 创建和删除并行2.1 创建默认的并行池2.2 在本地创建2.3 在集群创建2.4 删除 3. Parallel pool 包含的一些函数3.1 parfor3.2 parfeval 初学,肯定有理解不够的地方。看官方文件更靠谱。 1. 检查是否有并行附加功能 如果没有…

并行处理及分布式系统期末总结笔记

并行处理及分布式系统期末总结笔记 1、任务并行、数据并行的应用2、冯诺依曼体系结构的瓶颈及改进,Flynn分类法涉及的几种模型及其特点3、Cache的特点,Cache缺失、Cache命中、Cache一致性及解决方法、伪共享、流水线、多发射4、加速比、效率、阿姆达尔定…