学习cuda－开发者之家

问题描述我使用Eigen(让我们称之为inversion.cpp)进行矩阵求逆(下面提供的代码)。Inversion.cpp使用g++编译并给出正确的倒数。现在我将代码名更改为Inversion.cu，并尝试使用NVCC进行编译。编译失败，出现一长串错误。#include<Eig

发布：2022-10-16 标签：matrix cuda eigen inversion

问题描述我正在尝试找出CUDA中的常量内存、纹理内存和全局内存之间的区别。我可以找到以下相关文章，但找不到我的问题的答案globalvssharedmemoryinCUDAUsageofglobalvs.constantmemoryinCUDA这篇文章讨论了这三种方法对性能的影响

发布：2022-10-16 标签：memory cuda textures

问题描述我希望将单个位集与一组其他位集(~100k)进行XOR运算，并计算每个XOR结果的集合位数。单个位集的大小约为20k位。位集已转换为unsignedint数组，以便能够使用内在__popc()函数。‘Bunch’已连续驻留在设备内存中。我当前的内核代码如下：//Grid/

问题描述我在一台配备A100图形处理器的服务器上运行。在服务器重置后尝试运行TensorFlow代码时，TensorFlow无法识别GPU。运行tf.config.list_physical_devices('GPU')生成CUDA_ERROR_NOT_INITIALIZED：2

发布：2022-10-16 标签：nvidia gpu cuda tensorflow

问题描述我有一台配备了NVIDAGTX1050TiGPU(计算能力6.1)的计算机，正在尝试在我用CUDA11.4构建的程序中分析一个内核。我的操作系统发行版是DevuanGNU/Linux4Chimaera(~=Debian11Bullseye)。NSightCompute启动

问题描述CMake的较新版本(3.18及更高版本)了解CUDA代码编译所针对的CUDA体系结构的选择。目标具有CUDA_ARCHITECTURES属性，当设置该属性时，将为您生成适当的-gencodearch=whatever,code=whatever编译选项。如果您不设置此值

问题描述我下载了CUDA6.0RC，并在我的应用程序中使用cudaMalLocManaged测试了新的统一内存。但我发现这个内核变慢了。使用cudaMalloc后跟cudaMemcpy比使用cudaMallocManaged(~0.63)更快(~0.56)。这是预期的吗？其中一位

发布：2022-10-16 标签：nvidia cuda gpgpu hpc

问题描述我正在开发一个CUDA内核来计算图像的直方图(NVIDIAGTX480)。我注意到，使用Cuda剖析器发现了82.2%的分支分歧。分析器将以下函数指示为分歧的来源，该函数位于名为DEVICE_Functions.h的文件中(尤其是包含RETURN语句的那一行)。stati

发布：2022-10-16 标签：profiler atomic nvidia cuda

问题描述我正在使用gnumpy通过在GPU上进行训练神经网络来加速一些计算。我得到了想要的加速比，但我有点担心Numpy(CPU)和gnupy(GPU)结果的差异。我有以下测试脚本来说明问题：importgnumpyasgpuimportnumpyasnpn=400a=np.ra

发布：2022-10-16 标签：python precision cuda numpy

问题描述我的公司销售依赖于NVIDIACUDA工具包的商业Linux应用程序。然而，我们的许多客户在他们的计算机上没有超级用户访问权限，并且无法自己安装CUDA，因此我们希望将CUDA静态库与我们的应用程序捆绑在一起。我们的法律部门表示，我们需要实际将库的内容包含在我们应用程序的