在Python 2.7中高效读取800 GB XML文件

默认情况下，标准open()函数已经返回一个缓冲文件（如果在您的平台上可用）。对于通常完全缓冲的文件对象。

通常， 这里意味着Python将其留给C stdlib实现；它使用fopen()调用（wfopen()在Windows上支持UTF-16文件名），这意味着已选择文件的默认缓冲；在Linux上，我相信是8kb。对于像XML解析这样的纯读取操作，这种类型的缓冲正是您想要的。

通过XML解析完成iterparse的文件以16384字节（16kb）的块读取。

如果要控制缓冲区大小，请使用buffering关键字参数：

open('foo.xml', buffering=(2<<16) + 8)  # buffer enough for 8 full parser reads

它将覆盖默认的缓冲区大小（我希望与文件块大小或其倍数匹配）。根据这篇文章，增加读取缓冲区应该会 有所帮助，并且使用至少预期读取块大小的4倍加上8个字节的大小将提高读取性能。在上面的示例中，我将其设置为ElementTree读取大小的8倍。

该io.open()函数表示对象的新Python 3 I / O结构，其中I / O被拆分为新的类类型层次结构，从而为您提供了更大的灵活性。价格更加间接，要传递的数据层更多，并且Python C代码本身会执行更多工作，而不是将这些工作留给操作系统。

您可以尝试看看效果是否io.open('foo.xml', 'rb', buffering=2<<16)会更好。在rb模式下打开将为您提供io.BufferedReader实例。

你不希望使用io.TextIOWrapper; 底层的expat解析器需要原始数据，因为它将解码XML文件本身的编码。这只会增加额外的开销；如果r改为以（文本模式）打开，则会得到此类型。

使用io.open()可能会为您提供更大的灵活性和更丰富的API，但是使用open()而不是可以打开基础C文件对象fopen()，并且所有缓冲都由Pythonio.BufferedioBase实现处理。

我认为您的问题将是处理这头野兽，而不是读取文件。读取800GB文件时，无论如何都会缓存磁盘缓存。

python 2022/1/1 18:45:24 有326人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 1182
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1175
如何使用bcrypt在PHP中对密码进行哈希处理？

如何使用bcrypt在PHP中对密码进行哈希处理？

php 2022-01-01 928
如何在PHP中使用XMLReader？

如何在PHP中使用XMLReader？

php 2022-01-01 1067
PDOException“找不到驱动程序”在PHP

PDOException“找不到驱动程序”在PHP

php 2022-01-01 1050
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1231
__construct（）与SameAsClassName（）在PHP中的构造函数

__construct（）与SameAsClassName（）在PHP中的构造函数

php 2022-01-01 855
使用Retrofit2在POST请求中发送JSON

使用Retrofit2在POST请求中发送JSON

其他 2022-01-01 959
用单引号在PHP中打印换行符

用单引号在PHP中打印换行符

php 2022-01-01 873
可以嵌套在P元素内的HTML5元素列表？

可以嵌套在P元素内的HTML5元素列表？

其他 2022-01-01 900
为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

php 2022-01-01 844
如何在PHP中发出异步GET请求？

如何在PHP中发出异步GET请求？

php 2022-01-01 858
如何在php中为其他所有函数调用自动调用函数

如何在php中为其他所有函数调用自动调用函数

php 2022-01-01 917
当软键盘出现在phonegap中时，输入字段隐藏

当软键盘出现在phonegap中时，输入字段隐藏

其他 2022-01-01 879
在PHP中连接n个数组的值

在PHP中连接n个数组的值

php 2022-01-01 877
在PHP中“ =>”是什么意思？

在PHP中“ =>”是什么意思？

php 2022-01-01 898
在PHP中写入新行到文件（换行）

在PHP中写入新行到文件（换行）

php 2022-01-01 832
文件上传可以在PHP中超时吗？

文件上传可以在PHP中超时吗？

php 2022-01-01 874
如何在Python中使用Selenium滚动到页面的末尾？

如何在Python中使用Selenium滚动到页面的末尾？

python 2022-01-01 870
在PHP中对关联数组进行排序

在PHP中对关联数组进行排序

php 2022-01-01 835

在Python 2.7中高效读取800 GB XML文件

撰写回答

推荐问题

如何在PHP变量中去除空格？

我可以在php中的SESSION数组上使用array_push吗？

如何使用bcrypt在PHP中对密码进行哈希处理？

如何在PHP中使用XMLReader？

PDOException“找不到驱动程序”在PHP

为什么在pom.xml的第1行中出现Unknown错误？

__construct（）与SameAsClassName（）在PHP中的构造函数

使用Retrofit2在POST请求中发送JSON

用单引号在PHP中打印换行符

可以嵌套在P元素内的HTML5元素列表？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

如何在PHP中发出异步GET请求？

如何在php中为其他所有函数调用自动调用函数

当软键盘出现在phonegap中时，输入字段隐藏

在PHP中连接n个数组的值

在PHP中“ =>”是什么意思？

在PHP中写入新行到文件（换行）

文件上传可以在PHP中超时吗？

如何在Python中使用Selenium滚动到页面的末尾？

在PHP中对关联数组进行排序

分类汇总

您的鼓励是对我最大的支持