CUDA:将单个位集与位集数组进行异或

问题描述我希望将单个位集与一组其他位集(~100k)进行XOR运算,并计算每个XOR结果的集合位数。单个位集的大小约为20k位。位集已转换为unsignedint数组,以便能够使用内在__popc()函数。‘Bunch’已连续驻留在设备内存中。我当前的内核代码如下://Grid/

发布:2022-10-16 标签:c++bitwise-operatorscudagpgpubitset


NSight Compute表示:此设备不支持分析-为什么?

问题描述我有一台配备了NVIDAGTX1050TiGPU(计算能力6.1)的计算机,正在尝试在我用CUDA11.4构建的程序中分析一个内核。我的操作系统发行版是DevuanGNU/Linux4Chimaera(~=Debian11Bullseye)。NSightCompute启动

发布:2022-10-16 标签:profilingnvidiacudagpgpunsight-compute


CudaMalLocManaged"比&cudaMalloc"慢吗?

问题描述我下载了CUDA6.0RC,并在我的应用程序中使用cudaMalLocManaged测试了新的统一内存。但我发现这个内核变慢了。使用cudaMalloc后跟cudaMemcpy比使用cudaMallocManaged(~0.63)更快(~0.56)。这是预期的吗?其中一位

发布:2022-10-16 标签:nvidiacudagpgpuhpc


如何获取用于DMA的GPU内存的物理地址?(OpenCL)

问题描述我正在编写一个OpenCL程序,我希望使用DMA将数据从帧采集卡传输到GPU。如何获取GPU上OpenCL缓冲区的物理地址以执行此操作?推荐答案使用OpenCL,您无法获取缓冲区的物理GPU地址。但是,您可以将缓冲区的一个区域直接映射到主机内存,从而允许使用标准C/C++

发布:2022-10-16 标签:gpuopenclgpgpudma


OpenCL内核是否异步执行?

问题描述对于CUDA,我知道它们是在向默认流(NULL流)发出启动命令后异步执行的,那么在OpenCL中呢?示例代码如下:cl_contextcontext;cl_device_iddevice_id;cl_interr;...cl_kernelkernel1;cl_kernel

发布:2022-10-16 标签:asynchronousc++openclgpgpu


使用计算机特定的`.file`路径-CUDA.ptx文件是否可移植?

问题描述我正在研究cudaDecodeD3D9sample以了解CUDA是如何工作的,在编译时它会从.cu文件生成一个.ptx文件。据我目前所知,这个.ptx文件是一个中间表示,它将针对任何特定的GPU进行实时编译。该示例使用类cudaModuleMgr通过cuModuleLoa

发布:2022-10-16 标签:c++gpucudagpgpu


长记分板和短记分板(&r.t)分别是什么?(&x;Long&q;;和&q;Short&q;记分板W.r.t)MIO/L1TEX?

问题描述在最新的NVIDIA微体系结构中,出现了一个新的(?)taxonomyWARP停滞原因/WARP调度器状态。此分类中的两个项目是:短记分板-MIO队列操作的记分板依赖项。长记分板-L1TEX操作的记分板依赖项。我认为,其中使用"记分板"表示无序执行数据

发布:2022-10-16 标签:gpucudagpgpumicro-architecturensight-compute


分析CUDA矩阵添加代码,使用nvprof:代码API配置文件,内核不

问题描述我使用的是带有NVIDIAGeForceGPU的远程工作站,编译并执行后,当我尝试评测时,屏幕上会显示此信息这是我运行nvidia-smi时的输出#include<stdio.h>#include<cuda.h>#include<math.h>__global__void

发布:2022-10-16 标签:nvidiagpucudagpgpu


将 FFT 计算卸载到嵌入式 GPU 是否值得?

问题描述我们正在考虑将应用程序从专用数字信号处理芯片移植到通用x86硬件上.该应用程序进行了大量的傅立叶变换,从简短的研究来看,FFT似乎非常适合在GPU而不是CPU上进行计算.例如,此页面有一些使用Core2Quad和GF8800GTX的基准,显示使用GPU时计算时间减少了10

发布:2022-10-16 标签:gpuembeddedfftgpgpu


1 个 CUDA 内核能否在每个时钟(麦克斯韦)处理超过 1 个浮点指令?

问题描述解决方案总结:一个FMA算作2个FLOPs在FP吞吐量的标准核算中,即使在为单个执行单元在单个指令中执行此操作的机器上(这是它避免中间舍入的方式,融合FMA的一部分).CUDA核心"(也称为SP-流式处理器)最常指的是SM(流式多处理器)中的单精度浮点单元.一个CUDA内

发布:2022-10-16 标签:benchmarkingnvidiacudagpgpumaxwell