为什么我不能用numba（cuda python）获得1D数组的正确和？

你没有得到你所期望的总数是因为你没有写信代码生成那个总和。基本的CUDA编程模型（无论您是使用cudac、Fortran还是Python作为你的语言）是你编写内核代码，由每个线程执行。您已经为每个线程编写了代码来读取和求和输入数组的一部分。您还没有为这些线程编写任何代码来共享和求和它们的个别部分和变成最终和。有一个非常好的算法来实现这一点——它是称为平行还原。您可以在中找到该算法的介绍在CUDA工具包的每个版本的示例中提供的PDF，或下载相关演示文稿这里. 你也可以阅读一个更现代版本的算法，它使用了更新的 CUDA的特点（warp-shuffle指令和原子事务） [这里](https://devblogs.nvidia.com/parallelforall/faster-parallel-reductions- 开普勒/）。在学习了约简算法之后，您将需要调整将标准cudac内核代码转换成Numba Python内核方言。光秃秃的最低限度，类似这样：

tpb = (1,3)

@cuda.jit
def calcu_sum(D,T):

    ty = cuda.threadIdx.y
    bh = cuda.blockDim.y
    index_i = ty
    sbuf = cuda.shared.array(tpb, float32)

    L = len(D)
    su = 0
    while index_i < L:
        su += D[index_i]
        index_i +=bh

    print('su:',su)

    sbuf[0,ty] = su
    cuda.syncthreads()

    if ty == 0:
        T[0,0] = 0
        for i in range(0, bh):
            T[0,0] += sbuf[0,i]
        print('T:',T[0,0])

可能会做你想做的事，尽管离成功还有很长的路要走最佳的并行共享内存减少，当您阅读我提供链接的材料。

python 2022/1/1 18:46:13 有300人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

PHP中的全局变量是否被视为不良做法？如果是这样，为什么？

PHP中的全局变量是否被视为不良做法？如果是这样，为什么？

php 2022-01-01 1095
为什么需要将匿名函数传递给onClick事件？

为什么需要将匿名函数传递给onClick事件？

其他 2022-01-01 1088
为什么Class.newInstance（）是“evil”？

为什么Class.newInstance（）是“evil”？

其他 2022-01-01 1027
在为该对象分配其他内容时，为什么不通过引用传递该对象？

在为该对象分配其他内容时，为什么不通过引用传递该对象？

其他 2022-01-01 1315
为什么我们将firefoxdriver实例分配给webdriver

为什么我们将firefoxdriver实例分配给webdriver

其他 2022-01-01 1017
为什么新的Java 8日期时间API不具有纳秒精度？

为什么新的Java 8日期时间API不具有纳秒精度？

java 2022-01-01 1042
为什么浮点数打印方式如此不同？

为什么浮点数打印方式如此不同？

其他 2022-01-01 1031
为什么说深度优先搜索会遭受无限循环的困扰？

为什么说深度优先搜索会遭受无限循环的困扰？

其他 2022-01-01 929
为什么找不到SSL握手的信任库？

为什么找不到SSL握手的信任库？

其他 2022-01-01 1035
为什么没有输入，民意调查仍会返回？

为什么没有输入，民意调查仍会返回？

其他 2022-01-01 939
为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

其他 2022-01-01 932
在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

其他 2022-01-01 1045
为什么Hibernate切换为通过CLOB使用LONG？

为什么Hibernate切换为通过CLOB使用LONG？

其他 2022-01-01 981
为什么“无”映像出现在Docker中以及我们如何避免它

为什么“无”映像出现在Docker中以及我们如何避免它

其他 2022-01-01 909
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1231
为什么数据传输对象（DTO）是反模式？

为什么数据传输对象（DTO）是反模式？

其他 2022-01-01 906
为什么某些技术上可序列化的输入属性不能序列化？

为什么某些技术上可序列化的输入属性不能序列化？

其他 2022-01-01 981
什么是仓库和标签？为什么在使用docker build时它们会出现？

什么是仓库和标签？为什么在使用docker build时它们会出现？

其他 2022-01-01 1015
为什么无法在Java中扩展注释？

为什么无法在Java中扩展注释？

java 2022-01-01 1099
Java Map为什么不扩展Collection？

Java Map为什么不扩展Collection？

java 2022-01-01 986

为什么我不能用numba（cuda python）获得1D数组的正确和？

撰写回答

推荐问题

PHP中的全局变量是否被视为不良做法？如果是这样，为什么？

为什么需要将匿名函数传递给onClick事件？

为什么Class.newInstance（）是“evil”？

在为该对象分配其他内容时，为什么不通过引用传递该对象？

为什么我们将firefoxdriver实例分配给webdriver

为什么新的Java 8日期时间API不具有纳秒精度？

为什么浮点数打印方式如此不同？

为什么说深度优先搜索会遭受无限循环的困扰？

为什么找不到SSL握手的信任库？

为什么没有输入，民意调查仍会返回？

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

为什么Hibernate切换为通过CLOB使用LONG？

为什么“无”映像出现在Docker中以及我们如何避免它

为什么在pom.xml的第1行中出现Unknown错误？

为什么数据传输对象（DTO）是反模式？

为什么某些技术上可序列化的输入属性不能序列化？

什么是仓库和标签？为什么在使用docker build时它们会出现？

为什么无法在Java中扩展注释？

Java Map为什么不扩展Collection？

分类汇总

您的鼓励是对我最大的支持