将大型CSV转换为HDF5

用于append=True呼叫to_hdf：

import numpy as np
import pandas as pd

filename = '/tmp/test.h5'

df = pd.DataFrame(np.arange(10).reshape((5,2)), columns=['A', 'B'])
print(df)
#    A  B
# 0  0  1
# 1  2  3
# 2  4  5
# 3  6  7
# 4  8  9

# Save to HDF5
df.to_hdf(filename, 'data', mode='w', format='table')
del df    # allow df to be garbage collected

# Append more data
df2 = pd.DataFrame(np.arange(10).reshape((5,2))*10, columns=['A', 'B'])
df2.to_hdf(filename, 'data', append=True)

print(pd.read_hdf(filename, 'data'))

产量

请注意，您需要format='table'在第一个调用中使用df.to_hdf以使表可追加。否则，'fixed'默认情况下为格式，这对于读写来说是更快的，但是会创建一个不能追加的表。

因此，您可以一次处理一个CSV，用于append=True构建hdf5文件。然后覆盖DataFrame或用于del df允许对旧DataFrame进行垃圾回收。

另外，df.to_hdf您也可以将其附加到HDFStore上，而不用调用：

import numpy as np
import pandas as pd

filename = '/tmp/test.h5'
store = pd.hdfstore(filename)

for i in range(2):
    df = pd.DataFrame(np.arange(10).reshape((5,2)) * 10**i, columns=['A', 'B'])
    store.append('data', df)

store.close()

store = pd.hdfstore(filename)
data = store['data']
print(data)
store.close()

产量

其他 2022/1/1 18:38:46 有759人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

在.NET / C＃中将大量记录（批量插入）写入Access

在.NET / C＃中将大量记录（批量插入）写入Access

Access 2022-01-01 982
将大数字（或字符串）压缩为小数值

将大数字（或字符串）压缩为小数值

其他 2022-01-01 732
将大型矩阵转换为灰度图像

将大型矩阵转换为灰度图像

其他 2022-01-01 861
使用urllib2将大型二进制文件流式传输到文件

使用urllib2将大型二进制文件流式传输到文件

其他 2022-01-01 504
如何在python中将大型csv文件写入hdf5？

如何在python中将大型csv文件写入hdf5？

python 2022-01-01 539
使用Python批量将大量数据插入SQLite

使用Python批量将大量数据插入SQLite

SQLServer 2022-01-01 480
使用subprocess.Popen时将大量数据通过管道传输到stdin

使用subprocess.Popen时将大量数据通过管道传输到stdin

其他 2022-01-01 484
将大纪元时间转换为日期时间

将大纪元时间转换为日期时间

其他 2022-01-01 666
将大文件中的数据分块进行多处理？

将大文件中的数据分块进行多处理？

其他 2022-01-01 723
将大文本文件（约50GB）拆分为多个文件

将大文本文件（约50GB）拆分为多个文件

其他 2022-01-01 742
将大量数据加载到Oracle SQL数据库

将大量数据加载到Oracle SQL数据库

SQLServer 2022-01-01 983
在Python中将大型不规则网格插值到另一个不规则网格

在Python中将大型不规则网格插值到另一个不规则网格

python 2022-01-01 497
通过表单将大量文本发送到servlet

通过表单将大量文本发送到servlet

Jave 2022-01-01 614
将大熊猫数据帧写入SQL Server数据库

将大熊猫数据帧写入SQL Server数据库

SQLServer 2022-01-01 760
将大型CSV转换为HDF5

将大型CSV转换为HDF5

其他 2022-01-01 759
将大量存入numpy数组

将大量存入numpy数组

其他 2022-01-01 815
将大熊猫数据帧分块写入CSV文件

将大熊猫数据帧分块写入CSV文件

其他 2022-01-01 787
如何将大熊猫的每月数据转换为季度数据

如何将大熊猫的每月数据转换为季度数据

其他 2022-01-01 526
如何将大于RAM限制的gzip文件导入Pandas DataFrame？“杀9”使用HDF5？

如何将大于RAM限制的gzip文件导入Pandas DataFrame？“杀9”使用HDF5？

其他 2022-01-01 483
将大写应用于pandas数据框中的列

将大写应用于pandas数据框中的列

其他 2022-01-01 702

将大型CSV转换为HDF5

撰写回答

推荐问题

在.NET / C＃中将大量记录（批量插入）写入Access

将大数字（或字符串）压缩为小数值

将大型矩阵转换为灰度图像

使用urllib2将大型二进制文件流式传输到文件

如何在python中将大型csv文件写入hdf5？

使用Python批量将大量数据插入SQLite

使用subprocess.Popen时将大量数据通过管道传输到stdin

将大纪元时间转换为日期时间

将大文件中的数据分块进行多处理？

将大文本文件（约50GB）拆分为多个文件

将大量数据加载到Oracle SQL数据库

在Python中将大型不规则网格插值到另一个不规则网格

通过表单将大量文本发送到servlet

将大熊猫数据帧写入SQL Server数据库

将大型CSV转换为HDF5

将大量存入numpy数组

将大熊猫数据帧分块写入CSV文件

如何将大熊猫的每月数据转换为季度数据

如何将大于RAM限制的gzip文件导入Pandas DataFrame？“杀9”使用HDF5？

将大写应用于pandas数据框中的列

分类汇总

您的鼓励是对我最大的支持