如何在python中并行化大for循环

看来python会首先生成参数列表，然后甚至使用xrange将列表提供给函数“ f”。那是对的吗？

是的，因为您使用的是列表推导，它明确要求它生成该列表。

（请注意，xrange这里并没有什么关系，因为一次只能有两个范围，每个范围都是10K；与参数列表的100M相比，没什么。）

如果希望它根据需要动态生成值，而不是一次生成所有100M，则要使用生成器表达式而不是列表推导。几乎总是将括号变成括号的问题：

x=pool.map(f,((i,j) for i in range(10000) for j in range(10000)))

但是，正如您从源代码中看到的那样，map如果您给它提供一个生成器，它最终只会列出一个列表，因此，在这种情况下，它什么也解决不了。（文档没有明确说明这一点，但是很难看到如果没有长度，如何选择合适的块大小将可迭代对象切成小块……）。

而且，即使事实并非如此，您仍然会在结果上再次遇到相同的问题，因为会pool.map返回一个列表。

要解决这两个问题，可以pool.imap改用。它懒惰地消耗可迭代，并返回结果的惰性迭代器。

需要注意的一件事是，imap如果不通过，则不会猜测最佳的块大小，而只是默认为1，因此您可能需要一些思考或反复试验来优化它。

此外，imap仍会在输入结果时将它们排入队列，因此它可以按照参数的顺序将它们反馈给您。在病理情况下，最终可能会导致结果排队（poolsize-1）/ poolsize，尽管实际上这种情况很少见。如果要解决此问题，请使用imap_unordered。如果您需要了解顺序，只需将参数与参数和结果来回传递即可：

args = ((i, j) for i in range(10000) for j in range(10000))
def indexed_f(index, (i, j)):
    return index, f(i, j)
results = pool.imap_unordered(indexed_f, enumerate(args))

但是，我注意到在您的原始代码中，您对的结果根本不做任何事情f(i, j)。在那种情况下，为什么还要费心收集所有结果呢？在这种情况下，您可以返回循环：

for i in range(10000):
    for j in range(10000):
        map.apply_async(f, (i,j))

但是，imap_unordered可能仍然值得使用，因为它提供了一种非常简单的方法来阻止所有任务完成，同时仍保持池本身运行以供以后使用：

def consume(iterator):
    deque(iterator, max_len=0)
x=pool.imap_unordered(f,((i,j) for i in range(10000) for j in range(10000)))
consume(x)

python 2022/1/1 18:27:21 有198人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

如何在python中并行化大for循环

撰写回答

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何在JavaScript中将浮点数转换为整数？

如何基于EXPLAIN计划优化MySQL查询

如何在C＃/。NET中查找本地计算机的FQDN？

如何在Spring MVC中使用AJAX渲染视图

如何在PHP变量中去除空格？

如何枚举JavaScript对象的属性？

如何立即关闭Node.js HTTP服务器？

如何在IE8和9中支持占位符属性

如何使用jQuery访问父窗口对象？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何使用CSS将跨度更改为类似pre？

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何使用C＃获取两个DateTime对象之间的时差？

Django-如何使用South重命名模型字段？

如何计算回溯算法的时间复杂度？

如何在.htaccess中隐藏.php扩展名

使用GhostDriver时如何设置屏幕/窗口大小

如何在html5中制作透明画布？

分类汇总

您的鼓励是对我最大的支持