当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

因此，构建迭代器主要是为了处理where子句。PyTables返回子句为True的索引列表。这些是行号。在这种情况下，没有where子句，但是我们仍然使用索引器，在这种情况下，它只是np.arange在行列表中。

300MM行需要2.2GB。对于32位Windows（通常最大容量约为1GB）而言，这实在太多了。在64位上，这没有问题。

In [1]: np.arange(0,300000000).nbytes/(1024*1024*1024.0)
Out[1]: 2.2351741790771484

因此，这应该通过切片语义来处理，这将使其仅占用少量的内存。问题在这里打开。

所以我建议这个。在这里，索引器是直接计算的，这提供了迭代器的语义。

In [1]: df = DataFrame(np.random.randn(1000,2),columns=list('AB'))

In [2]: df.to_hdf('test.h5','df',mode='w',format='table',data_columns=True)

In [3]: store = pd.hdfstore('test.h5')

In [4]: nrows = store.get_storer('df').nrows

In [6]: chunksize = 100

In [7]: for i in xrange(nrows//chunksize + 1):
            chunk = store.select('df',
                                 start=i*chunksize,
                                 stop=(i+1)*chunksize)
            # work on the chunk

In [8]: store.close()

其他 2022/1/1 18:25:08 有643人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

每当使用￡时，MySQL或PHP都会附加一个?

每当使用￡时，MySQL或PHP都会附加一个?

php 2022-01-01 604
当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

其他 2022-01-01 643
这是对python内置哈希函数的适当使用吗？

这是对python内置哈希函数的适当使用吗？

python 2022-01-01 567
当使用shell = True w / list时，subprocess.call（）参数将被忽略

当使用shell = True w / list时，subprocess.call（）参数将被忽略

其他 2022-01-01 549
当使用Python处理巨大的CSV突然停止时，“杀死”是什么意思？

当使用Python处理巨大的CSV突然停止时，“杀死”是什么意思？

python 2022-01-01 555
当使用带领带的ROW_NUMBER（）OVER小数列时不确定的排序顺序

当使用带领带的ROW_NUMBER（）OVER小数列时不确定的排序顺序

其他 2022-01-01 608
当使用keras.utils.Sequence时，keras预言生成器正在改组其输出

当使用keras.utils.Sequence时，keras预言生成器正在改组其输出

其他 2022-01-01 535
仅当使用列列表且IDENTITY_INSERT为ON时，才能为表“表”中的标识列指定一个显式值。

仅当使用列列表且IDENTITY_INSERT为ON时，才能为表“表”中的标识列指定一个显式值。

SQL 2022-01-01 723
当使用cx_Freeze和tkinter时，我得到：“ DLL加载失败：找不到指定的模块。” （Python 3.5.3）

当使用cx_Freeze和tkinter时，我得到：“ DLL加载失败：找不到指定的模块。” （Python 3.5.3）

python 2022-01-01 681
“ Webdrivers”可执行文件可能具有错误的权限。请参阅https://sites.google.com/a/chromium.org/chromedriver/home

“ Webdrivers”可执行文件可能具有错误的权限。请参阅https://sites.google.com/a/chromium.org/chromedriver/home

Go 2022-01-01 855
SecretKeyFactory.getInstance（“ PBKDF2WithHmacSHA512”）引发NoSuchAlgorithmException

SecretKeyFactory.getInstance（“ PBKDF2WithHmacSHA512”）引发NoSuchAlgorithmException

Go 2022-01-01 714
org.apache.tomcat.dbcp.dbcp.SQLNestedException：无法创建PoolableConnectionFactory（“ v $ session.osuser”，值为“ x”）

org.apache.tomcat.dbcp.dbcp.SQLNestedException：无法创建PoolableConnectionFactory（“ v $ session.osuser”，值为“ x”）

SQLServer 2022-01-01 712
WebDriverException：消息：通过Selenium Chromedriver Phyton设置UserAgent时，“ chromedriver”可执行文件必须位于PATH中

WebDriverException：消息：通过Selenium Chromedriver Phyton设置UserAgent时，“ chromedriver”可执行文件必须位于PATH中

其他 2022-01-01 599
jQuery ajax错误{“ readyState”：0，“ responseText”：“”，“ status”：0，“ statusText”：“ error”}

jQuery ajax错误{“ readyState”：0，“ responseText”：“”，“ status”：0，“ statusText”：“ error”}

JS 2022-01-01 857
JPA OneToMany和ManyToOne引发：实体列的映射中重复的列（应使用insert =“ false” update =“ false”进行映射）

JPA OneToMany和ManyToOne引发：实体列的映射中重复的列（应使用insert =“ false” update =“ false”进行映射）

SQL 2022-01-01 590
nu.pattern.OpenCV $ UnsupportedPlatformException：不支持操作系统“ WINDOWS”和体系结构“ X86_64”

nu.pattern.OpenCV $ UnsupportedPlatformException：不支持操作系统“ WINDOWS”和体系结构“ X86_64”

其他 2022-01-01 641
org.springframework.expression.spel.SpelEvaluationException：EL1007E：在null上找不到属性或字段“ chargesName”

org.springframework.expression.spel.SpelEvaluationException：EL1007E：在null上找不到属性或字段“ chargesName”

Java 2022-01-01 606
Spring Boot数据库错误数据源“ org.springframework.boot.autoconfigure.orm.jpa.HibernateJpaConfiguration”

Spring Boot数据库错误数据源“ org.springframework.boot.autoconfigure.orm.jpa.HibernateJpaConfiguration”

Java 2022-01-01 605
当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

其他 2022-01-01 643
AttributeError：模块“ tensorflow.python.training.checkpointable”没有属性“ CheckpointableBase”

AttributeError：模块“ tensorflow.python.training.checkpointable”没有属性“ CheckpointableBase”

python 2022-01-01 579
MongoDB + Azure + Android：com.mongodb.WriteConcernException err：“非主用户”代码：“ 10058”

MongoDB + Azure + Android：com.mongodb.WriteConcernException err：“非主用户”代码：“ 10058”

mongodb 2022-01-01 680
线程“ main”中的异常org.openqa.selenium.WebDriverException：在geckodriver升级后等待Firefox等待45秒超时

线程“ main”中的异常org.openqa.selenium.WebDriverException：在geckodriver升级后等待Firefox等待45秒超时

其他 2022-01-01 549
selenium.common.exceptions.WebDriverException：消息：“ geckodriver”可执行文件必须在GeckoDriver Selenium Firefox的PATH中

selenium.common.exceptions.WebDriverException：消息：“ geckodriver”可执行文件必须在GeckoDriver Selenium Firefox的PATH中

其他 2022-01-01 535
无法将类型为“ NHibernate.Hql.Ast.HqlCast”的对象转换为类型为“ NHibernate.Hql.Ast.HqlBooleanExpression”的对象

无法将类型为“ NHibernate.Hql.Ast.HqlCast”的对象转换为类型为“ NHibernate.Hql.Ast.HqlBooleanExpression”的对象

其他 2022-01-01 486

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

撰写回答

推荐问题

每当使用￡时，MySQL或PHP都会附加一个?

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

这是对python内置哈希函数的适当使用吗？

当使用shell = True w / list时，subprocess.call（）参数将被忽略

当使用Python处理巨大的CSV突然停止时，“杀死”是什么意思？

当使用带领带的ROW_NUMBER（）OVER小数列时不确定的排序顺序

当使用keras.utils.Sequence时，keras预言生成器正在改组其输出

仅当使用列列表且IDENTITY_INSERT为ON时，才能为表“表”中的标识列指定一个显式值。

当使用cx_Freeze和tkinter时，我得到：“ DLL加载失败：找不到指定的模块。” （Python 3.5.3）

“ Webdrivers”可执行文件可能具有错误的权限。请参阅https://sites.google.com/a/chromium.org/chromedriver/home

SecretKeyFactory.getInstance（“ PBKDF2WithHmacSHA512”）引发NoSuchAlgorithmException

org.apache.tomcat.dbcp.dbcp.SQLNestedException：无法创建PoolableConnectionFactory（“ v $ session.osuser”，值为“ x”）

WebDriverException：消息：通过Selenium Chromedriver Phyton设置UserAgent时，“ chromedriver”可执行文件必须位于PATH中

jQuery ajax错误{“ readyState”：0，“ responseText”：“”，“ status”：0，“ statusText”：“ error”}

JPA OneToMany和ManyToOne引发：实体列的映射中重复的列（应使用insert =“ false” update =“ false”进行映射）

nu.pattern.OpenCV $ UnsupportedPlatformException：不支持操作系统“ WINDOWS”和体系结构“ X86_64”

org.springframework.expression.spel.SpelEvaluationException：EL1007E：在null上找不到属性或字段“ chargesName”

Spring Boot数据库错误数据源“ org.springframework.boot.autoconfigure.orm.jpa.HibernateJpaConfiguration”

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

AttributeError：模块“ tensorflow.python.training.checkpointable”没有属性“ CheckpointableBase”

MongoDB + Azure + Android：com.mongodb.WriteConcernException err：“非主用户”代码：“ 10058”

线程“ main”中的异常org.openqa.selenium.WebDriverException：在geckodriver升级后等待Firefox等待45秒超时

selenium.common.exceptions.WebDriverException：消息：“ geckodriver”可执行文件必须在GeckoDriver Selenium Firefox的PATH中

无法将类型为“ NHibernate.Hql.Ast.HqlCast”的对象转换为类型为“ NHibernate.Hql.Ast.HqlBooleanExpression”的对象

分类汇总

您的鼓励是对我最大的支持