ElementTree（1.3.0）Python中XML解析的有效方法

这是一个脚本，可以在几秒钟内（在我的机器上）解析一百万个<instrumentConfiguration/>元素（967MB文件），40而不会占??用大量内存。

吞吐量为24MB/s。该cElementTree page (2005)报告47MB/s。

#!/usr/bin/env python
from itertools import imap, islice, izip
from operator  import itemgetter
from xml.etree import cElementTree as etree

def parsexml(filename):
    it = imap(itemgetter(1),
              iter(etree.iterparse(filename, events=('start',))))
    root = next(it) # get root element
    for elem in it:
        if elem.tag == '{http://psi.hupo.org/ms/mzml}instrumentConfiguration':
            values = [('Id', elem.get('id')),
                      ('Parameter1', next(it).get('name'))] # cvParam
            componentList_count = int(next(it).get('count'))
            for parent, child in islice(izip(it, it), componentList_count):
                key = parent.tag.partition('}')[2]
                value = child.get('name')
                assert child.tag.endswith('cvParam')
                values.append((key, value))
            yield values
            root.clear() # preserve memory

def print_values(it):
    for line in (': '.join(val) for conf in it for val in conf):
        print(line)

print_values(parsexml(filename))

python 2022/1/1 18:30:26 有314人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

ESLint-组件应被编写为纯函数（react preferred / stateless function）

ESLint-组件应被编写为纯函数（react preferred / stateless function）

其他 2022-01-01 1152
在JavaScript中删除数组元素-Delete与Splice

在JavaScript中删除数组元素-Delete与Splice

SQL 2022-01-01 1249
无法在Ubuntu上将ElasticSearch作为服务运行

无法在Ubuntu上将ElasticSearch作为服务运行

其他 2022-01-01 973
如何提高Elasticsearch函数得分的字段长度范数？

如何提高Elasticsearch函数得分的字段长度范数？

其他 2022-01-01 1031
Laravel 5：通过数据透视同步额外的字段

Laravel 5：通过数据透视同步额外的字段

其他 2022-01-01 1034
我如何重新连接使用selenium的webdriver打开的浏览器？

我如何重新连接使用selenium的webdriver打开的浏览器？

其他 2022-01-01 1081
elasticsearch-返回字段的标记

elasticsearch-返回字段的标记

其他 2022-01-01 1000
{{}}和{!!有什么区别？!!}在laravel刀片文件中？

{{}}和{!!有什么区别？!!}在laravel刀片文件中？

其他 2022-01-01 1408
什么是selenium，什么是WebDriver？

什么是selenium，什么是WebDriver？

其他 2022-01-01 988
尝试使用selenium和python登录网页时出错

尝试使用selenium和python登录网页时出错

python 2022-01-01 1022
在移动设备上进行selenium测试值得吗？

在移动设备上进行selenium测试值得吗？

其他 2022-01-01 881
无法检查Expect（elm）.not.toBeVisible（）的语义UI反应组件

无法检查Expect（elm）.not.toBeVisible（）的语义UI反应组件

其他 2022-01-01 1085
在服务器上运行selenium浏览器（Flask / Python / Heroku）

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Python 2022-01-01 1262
Langford序列实现Haskell或C

Langford序列实现Haskell或C

其他 2022-01-01 995
如何在Laravel中使用多个数据库

如何在Laravel中使用多个数据库

其他 2022-01-01 918
Spring Boot和Thymeleaf-再次热插拔模板和资源

Spring Boot和Thymeleaf-再次热插拔模板和资源

Java 2022-01-01 869
如何从javascript中的Razor Model对象获取JSON对象

如何从javascript中的Razor Model对象获取JSON对象

javascript 2022-01-01 942
elasticsearch滚动行为

elasticsearch滚动行为

其他 2022-01-01 990
从Nest客户端elasticsearch2.3序列化查询

从Nest客户端elasticsearch2.3序列化查询

其他 2022-01-01 989
elasticsearch-Ubuntu-拒绝连接

elasticsearch-Ubuntu-拒绝连接

其他 2022-01-01 1009

ElementTree（1.3.0）Python中XML解析的有效方法

撰写回答

推荐问题

ESLint-组件应被编写为纯函数（react preferred / stateless function）

在JavaScript中删除数组元素-Delete与Splice

无法在Ubuntu上将ElasticSearch作为服务运行

如何提高Elasticsearch函数得分的字段长度范数？

Laravel 5：通过数据透视同步额外的字段

我如何重新连接使用selenium的webdriver打开的浏览器？

elasticsearch-返回字段的标记

{{}}和{!!有什么区别？!!}在laravel刀片文件中？

什么是selenium，什么是WebDriver？

尝试使用selenium和python登录网页时出错

在移动设备上进行selenium测试值得吗？

无法检查Expect（elm）.not.toBeVisible（）的语义UI反应组件

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Langford序列实现Haskell或C

如何在Laravel中使用多个数据库

Spring Boot和Thymeleaf-再次热插拔模板和资源

如何从javascript中的Razor Model对象获取JSON对象

elasticsearch滚动行为

从Nest客户端elasticsearch2.3序列化查询

elasticsearch-Ubuntu-拒绝连接

分类汇总

您的鼓励是对我最大的支持