cuda 寄存器数组使用解析

2024-11-24 17:15:39 204人阅读

关于cuda寄存器数组

在基于cuda对一些算法做并行优化时，为了尽可能的提高算法的运行速度，有时我们会想要用寄存器数组使得算法飞一般的快，然而，效果却总是差强人意。用了竟然比没用快，这是为什么呢？

哈哈，说重点，我们定义寄存器数组有以下两种方式：

1 Inta[8];

此时，我们定义的数组真的是我们想要的寄存器数组吗？这样的定义，编译器将我们定义的“寄存器数组”放在了 local memory，而local memory 就是在显存中开辟的一块空间，速度怎么可能会快？

定义时顺便初始化，此时是不是我们想要的寄存器数组呢？不一定，只能说有一定的概率是我们想要的寄存器数组。编译器会根据定义数组的大小确定是否将寄存器数组放入local memory。可是具体数组的size为多少会是我们想要的寄存器数组，不得而知！

那么，有没有方法强制使我们定义的寄存器数组保存在寄存器中呢？我表示，没查到。

好像只有定义多个变量。

例如：将 int a[8]; 替换为如下形式:

Int a0;

Int a1;

Int a2;

Int a3;

Int a4;

Int a5;

Int a6;

Int a7;

只是这样的定义方法，程序的通用性会再降一个级别

说了半天，好像净是废话，这样当然可以啦。好了，再强调一下，如果各位博友知道如何在cuda中如何定义我们想要的寄存器数组(不是将存储空间开辟在local memory中的寄存器数组)，请一定联系我，跪谢。

cuda 寄存器数组使用解析

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们