可以memmap pandas系列。数据框呢？

好…经过大量挖掘，这是怎么回事。PandasDataFrame使用BlockManager该类在内部组织数据。与文档相反，DataFrame不是系列的集合，而是类似dtyped矩阵的集合 。Blockmanger将所有float列组合在一起，将所有int列组合在一起，等等…，并且它们的内存（据我所知）保持在一起。

如果提供单个ndarray矩阵（单个类型），则无需复制内存即可做到这一点。请注意，BlockManager（理论上）还支持在其构造中不复制混合类型数据，因为可能不必将此输入复制到相同类型的块中。但是，如果单个矩阵是数据参数，则DataFrame构造函数不会仅进行复制。

简而言之，如果您将混合类型或多个数组作为构造函数的输入，或者为dict提供单个数组，则您在Pandas中不走运，DataFrame的默认BlockManager将复制您的数据。

无论如何，解决此问题的一种方法是强制BlockManager不要按类型合并，而是将每列保留为单独的“块”。所以，有了猴子修补魔法…

        from pandas.core.internals import BlockManager
        class BlockManagerUnconsolidated(BlockManager):
            def __init__(self, *args, **kwargs):
                BlockManager.__init__(self, *args, **kwargs)
                self._is_consolidated = False
                self._kNown_consolidated = False

            def _consolidate_inplace(self): pass
            def _consolidate(self): return self.blocks


        def df_from_arrays(arrays, columns, index):
            from pandas.core.internals import make_block
            def gen():
                _len = None
                p = 0
                for a in arrays:
                    if _len is None:
                        _len = len(a)
                        assert len(index) == _len
                    assert _len == len(a)
                    yield make_block(values=a.reshape((1,_len)), placement=(p,))
                    p+=1

            blocks = tuple(gen())
            mgr = BlockManagerUnconsolidated(blocks=blocks, axes=[columns, index])
            return pd.DataFrame(mgr, copy=False)

如果指定copy = False，则DataFrame或Blockmanger最好具有consolidate = False（或假设有此行为）。

去测试：

    def assert_readonly(iloc):
       try:
           iloc[0] = 999 # Should be non-editable
           raise Exception("MUST BE READ ONLY (1)")
       except ValueError as e:
           assert "read-only" in e.message

    # Original ndarray
    n = 1000
    _arr = np.arange(0,1000, dtype=float)

    # Convert it to a memmap
    mm = np.memmap(filename, mode='w+', shape=_arr.shape, dtype=_arr.dtype)
    mm[:] = _arr[:]
    del _arr
    mm.flush()
    mm.flags['WRITEABLE'] = False  # Make immutable!

        df = df_from_arrays(
            [mm, mm, mm],
            columns=['a', 'b', 'c'],
            index=range(len(mm)))
        assert_read_only(df["a"].iloc)
        assert_read_only(df["b"].iloc)
        assert_read_only(df["c"].iloc)

对于我来说，将BlockManager类似类型的数据保存在一起是否真的有实际的好处-在Pandas中的大多数操作都是按行标签或逐列进行操作- 这是DataFrame由于结构的异构通常仅通过其索引关联的列。尽管可行的是，他们在每个“块”中保留一个索引，但是如果索引在块中保留偏移量，则可以从中受益（如果是这种情况，那么他们应该按进行分组sizeof(dtype)，我认为情况并非如此）。呵呵…

关于提供非复制构造函数的PR进行了一些讨论，但被放弃了。

看来有逐步淘汰BlockManager的明智计划，因此您的工作量很多。

另请参阅引擎盖下的熊猫，这对我很有帮助。

其他 2022/1/1 18:38:20 有479人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

可以memmap pandas系列。数据框呢？

撰写回答

推荐问题

我可以在php中的SESSION数组上使用array_push吗？

如果是两个组的成员，是否可以为TestNG设置条件以运行测试？

我可以使用BeautifulSoup删除脚本标签吗？

是否可以从eclispe中的mysql表生成带有休眠注释的java类文件

大小相等的表格单元格可以填充包含表格的整个宽度

Hibernate工具可以生成JPA POJO吗？

可以移动Docker容器（不提供Docker映像）吗？

有人可以解释“双重否定”的把戏吗？

我们可以使用Spring Boot来实现Java库吗？

有没有一种方法可以使特定密钥在集群模式下位于特定Redis实例上？

phantomjs可以与node.js一起使用吗？

是否可以从组件外部触发Redux操作？

我们可以在React Native应用程序中使用Node.js代码吗？

使用PHP或JavaScript提交表单失败后，是否可以重新填充文件输入？

我的applicationContext中可以有多个PropertyPlaceHolderConfigurer吗？

是否可以使用通配符从目录中的所有文件导入模块？

是否可以自定义printf？

在IndexedDB中，是否可以进行排序的复合查询？

为什么CSS可以处理假元素？

可以嵌套在P元素内的HTML5元素列表？

分类汇总

您的鼓励是对我最大的支持