为什么numpy.any在大型数组上这么慢？

正如评论中所猜到的，我可以确认数组的处理是按块完成的。首先，我将向您展示代码中的内容，然后向您展示如何更改块大小以及这样做对基准的影响。

np.all（x）与x.all（）相同。all（）真正调用np.core.umath.logical_and.reduce（x）。

如果您想深入了解numpy源，我将尝试引导您找到使用缓冲区/块大小的方法。我们将要查看的包含所有代码的文件夹是numpy / core / src / umath /。

ufunc_object.c中的PyUFunc_Reduce（）是处理reduce的C函数。在PyUFunc_Reduce（）中，可以通过PyUFunc_GetPyValues（）函数（ufunc_object.c）在某些全局词典中查找reduce的值来找到块或缓冲区的大小。在我的计算机上，并从开发分支进行编译，块大小为8192。reduce.c中的PyUFunc_ReduceWrapper（）被调用以设置迭代器（步长等于块大小），并调用传入的循环函数是ufunc_object.c中的reduce_loop（）。

reduce_loop（）基本上只使用迭代器，并为每个块调用另一个innerloop（）函数。innerloop函数位于loops.c.src中。对于布尔数组和我们的all / logical_and案例，适当的innerloop函数是BOOL_logical_and。您可以通过搜索BOOLEAN LOOPS找到合适的函数，然后找到它下面的第二个函数（由于此处使用类似模板的编程，因此很难找到它）。在那里，您会发现实际上每个块都发生了短路。

您可以使用np.getbuffersize（）获得块/缓冲区的大小。对我来说，它返回8192而不需要手动设置它，与通过打印代码中的缓冲区大小找到的匹配。您可以使用np.setbuffersize（）更改块大小。

我将您的基准代码更改为以下代码：

import timeit
import numpy as np
print 'Numpy v%s' %np.version.full_version
stmt = "np.all(x)"
for ii in xrange(9):
    setup = "import numpy as np; x = np.zeros(%d,dtype=np.bool); np.setbufsize(%d)" %(10**ii, max(8192, min(10**ii, 10**7)))
    timer = timeit.Timer(stmt,setup)
    n,r = 1,3
    t = np.min(timer.repeat(r,n))
    while t < 0.2:
        n *= 10
        t = np.min(timer.repeat(r,n))
    t /= n
    if t < 1E-3:
        timestr = "%1.3f us" %(t*1E6)
    elif t < 1:
        timestr = "%1.3f ms" %(t*1E3)
    else:
        timestr = "%1.3f s" %t
    print "Array size: 1E%i, %i loops, best of %i: %s/loop" %(ii,n,r,timestr)

Numpy不喜欢缓冲区大小过小或太大，因此我确保它不会小于8192或大于1E7，因为Numpy不喜欢缓冲区大小为1E8。否则，我将缓冲区大小设置为正在处理的数组的大小。我之所以只使用1E8，是因为我的机器目前只有4GB的内存。结果如下：

Numpy v1.8.0.dev-2a5c2c8
Array size: 1E0, 100000 loops, best of 3: 5.351 us/loop
Array size: 1E1, 100000 loops, best of 3: 5.390 us/loop
Array size: 1E2, 100000 loops, best of 3: 5.366 us/loop
Array size: 1E3, 100000 loops, best of 3: 5.360 us/loop
Array size: 1E4, 100000 loops, best of 3: 5.433 us/loop
Array size: 1E5, 100000 loops, best of 3: 5.400 us/loop
Array size: 1E6, 100000 loops, best of 3: 5.397 us/loop
Array size: 1E7, 100000 loops, best of 3: 5.381 us/loop
Array size: 1E8, 100000 loops, best of 3: 6.126 us/loop

由于缓冲区大小的限制，正在处理多个块，因此最后一个时间的上升幅度很小。

其他 2022/1/1 18:30:26 有503人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

为什么numpy.any在大型数组上这么慢？

撰写回答

推荐问题

PHP中的全局变量是否被视为不良做法？如果是这样，为什么？

为什么需要将匿名函数传递给onClick事件？

为什么Class.newInstance（）是“evil”？

在为该对象分配其他内容时，为什么不通过引用传递该对象？

为什么我们将firefoxdriver实例分配给webdriver

为什么新的Java 8日期时间API不具有纳秒精度？

为什么浮点数打印方式如此不同？

为什么说深度优先搜索会遭受无限循环的困扰？

为什么找不到SSL握手的信任库？

为什么没有输入，民意调查仍会返回？

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

为什么Hibernate切换为通过CLOB使用LONG？

为什么“无”映像出现在Docker中以及我们如何避免它

为什么在pom.xml的第1行中出现Unknown错误？

为什么数据传输对象（DTO）是反模式？

为什么某些技术上可序列化的输入属性不能序列化？

什么是仓库和标签？为什么在使用docker build时它们会出现？

为什么无法在Java中扩展注释？

Java Map为什么不扩展Collection？

分类汇总

您的鼓励是对我最大的支持