在python中合并两个表与数百万行 -清零世界

概述

选择符合条件B(使用A的ids)的行将不会
非常快,因为我认为它可能会将数据导入python空间
而不是内核搜索(我不确定,但你可能想要的
在内核优化部分更多地投入pytables.org上,
有一种方法来判断它是否在内核中)

另外如果你这么做,这是一个非常平行的问题(只是不要写
结果来自多个进程的同一个文件,pytables不是写安全的
为了那个原因)

有关如何进行联接操作实际上是“内部”连接的注释,请参阅this answer.

对于您的merge_a_b操作,我想您可以使用标准的大熊猫连接
这是非常有效的(当内存中)

另一个选项(取决于“大”A)是否可能将A分为2部分
(索引相同),在第一个中使用较小的(可能使用单列)
表;而不是存储合并结果本身,存储行索引;后来
你可以拉出你需要的数据(就像使用索引器一样)
见http://pandas.pydata.org/pandas-docs/stable/io.html#multiple-table-queries

A = hdfstore('A.h5')
B = hdfstore('B.h5')

nrows_a = A.get_storer('df').nrows
nrows_b = B.get_storer('df').nrows
a_chunk_size = 1000000
b_chunk_size = 1000000

def merge_a_b(a,b):
    # function that returns an operation on passed
    # frames a and b
    # Could be a merge,join,concat,or other operation that 
    # results in a single frame


for a in xrange(int(nrows_a / a_chunk_size) + 1):

    a_start_i = a * a_chunk_size
    a_stop_i  = min((a + 1) * a_chunk_size,nrows_a)

    a = A.select('df',start = a_start_i,stop = a_stop_i)

    for b in xrange(int(nrows_b / b_chunk_size) + 1):

        b_start_i = b * b_chunk_size
        b_stop_i = min((b + 1) * b_chunk_size,nrows_b)

        b = B.select('df',start = b_start_i,stop = b_stop_i)

        # this is your result store
        m = merge_a_b(a,b)

        if len(m):
            store.append('df_result',m)

总结

以上是编程之家为你收集整理的在python中合并两个表与数百万行全部内容，希望文章能够帮你解决在python中合并两个表与数百万行所遇到的程序开发问题。

如果您也喜欢它,动动您的小指点个赞吧

在python中合并两个表与数百万行

概述

总结

分类汇总

您的鼓励是对我最大的支持