您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

使用Python lxml和Iterparse解析大型XML文件

使用Python lxml和Iterparse解析大型XML文件

无论如何,整个XML都是由核心实现解析的。etree.iterparse只是生成器样式的视图,它提供了按标记名称的简单过滤(请参阅docstringhttp://lxml.de/api/lxml.etree.iterparse- class.html)。如果您想进行复杂的过滤,则应自己完成。

解决方案:还注册启动事件:

iterparse(self, source, events=("start", "end",), tag="item")
@H_404_7@

并知道您何时处于“ item”端,何时处于“ item / url / item”端。

解决方法

我试图使用lxml和iterparse方法编写解析器,以逐步浏览包含许多项目的非常大的xml文件。

我的文件格式为:

<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
  <url>
     <item>http://www.url1.com</item>
  </url>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
  <url>
     <item>http://www.url2.com</item>
  </url>
</item>

到目前为止,我的解决方案是:

from lxml import etree

context = etree.iterparse( MYFILE,tag='item' )

for event,elem in context :
      print elem.xpath( 'description/text( )' )
      elem.clear( )
      while elem.getprevious( ) is not None :
            del elem.getparent( )[0]

del context

当我运行它时,我得到类似于以下内容:

[]
['description1']
[]
['description2']

空集是因为它还会将属于子项的item标记拉出到url标记中,并且显然没有使用xpath提取的描述字段。我的希望是逐项分析每个项目,然后根据需要处理子字段。我只是在学习lxml库,所以我很好奇是否有一种方法可以提取主要项目,同时又可以保留任何子项目?

喜欢与人分享编程技术与工作经验,欢迎加入编程之家官方交流群!
<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
  <url>
     <item>http://www.url1.com</item>
  </url>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
  <url>
     <item>http://www.url2.com</item>
  </url>
</item>
from lxml import etree

context = etree.iterparse( MYFILE,tag='item' )

for event,elem in context :
      print elem.xpath( 'description/text( )' )
      elem.clear( )
      while elem.getprevious( ) is not None :
            del elem.getparent( )[0]

del context
[]
['description1']
[]
['description2']

并知道您何时处于“ item”端,何时处于“ item / url / item”端。

我试图使用lxml和iterparse方法编写解析器,以逐步浏览包含许多项目的非常大的xml文件。

我的文件格式为:

到目前为止,我的解决方案是:

当我运行它时,我得到类似于以下内容:

空集是因为它还会将属于子项的item标记拉出到url标记中,并且显然没有使用xpath提取的描述字段。我的希望是逐项分析每个项目,然后根据需要处理子字段。我只是在学习lxml库,所以我很好奇是否有一种方法可以提取主要项目,同时又可以保留任何子项目?

并知道您何时处于“ item”端,何时处于“ item / url / item”端。

python 2022/1/1 18:36:45 有242人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶