从python中的xml文档中提取文本

您可以简单地去除所有标签：

>>> import re
>>> txt = """<bookstore>
...     <book category="COOKING">
...         <title lang="english">Everyday Italian</title>
...         <author>Giada De Laurentiis</author>
...         <year>2005</year>
...         <price>300.00</price>
...     </book>
...
...     <book category="CHILDREN">
...         <title lang="english">Harry Potter</title>
...         <author>J K. Rowling </author>
...         <year>2005</year>
...         <price>625.00</price>
...     </book>
... </bookstore>"""
>>> exp = re.compile(r'<.*?>')
>>> text_only = exp.sub('',txt).strip()
>>> text_only
'Everyday Italian\n        Giada De Laurentiis\n        2005\n        300.00\n
  \n\n    \n        Harry Potter\n        J K. Rowling \n        2005\n        6
25.00'

但是，如果您只想在Linux中搜索文件中的某些文本，则可以使用grep：

burhan@sand@R_387_2419@:~$ grep "Harry Potter" file.xml
        <title lang="english">Harry Potter</title>

如果要搜索文件，请使用grep上面的命令，或打开文件并在Python中搜索：

>>> import re
>>> exp = re.compile(r'<.*?>')
>>> with open('file.xml') as f:
...     lines = ''.join(line for line in f.readlines())
...     text_only = exp.sub('',lines).strip()
...
>>> if 'Harry Potter' in text_only:
...    print 'It exists'
... else:
...    print 'It does not'
...
It exists

python 2022/1/1 18:28:21 有190人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从Python访问errno？

从Python访问errno？

python 2022-01-01 1059
从Python字符串中删除不在允许列表中的HTML标签

从Python字符串中删除不在允许列表中的HTML标签

python 2022-01-01 1082
从python读取json文件

从python读取json文件

python 2022-01-01 971
为什么从Promise`.then`中进行回调是一种反模式

为什么从Promise`.then`中进行回调是一种反模式

其他 2022-01-01 829
从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

SQLServer 2022-01-01 950
自动从PHP代码中删除注释的最佳方法

自动从PHP代码中删除注释的最佳方法

php 2022-01-01 829
为什么从PHP 5.4开始永久启用“ echo”短标签？

为什么从PHP 5.4开始永久启用“ echo”短标签？

php 2022-01-01 873
如何将变量和数据从PHP传递到JavaScript？

如何将变量和数据从PHP传递到JavaScript？

php 2022-01-01 740
如何从PHP中的XML文件获取属性的值？

如何从PHP中的XML文件获取属性的值？

php 2022-01-01 748
如何从Perl CGI程序发送JSON响应？

如何从Perl CGI程序发送JSON响应？

其他 2022-01-01 800
如何从PHP文本中删除空白行？

如何从PHP文本中删除空白行？

php 2022-01-01 820
从POST获取复选框数组值

从POST获取复选框数组值

其他 2022-01-01 814
从print_r输出重新创建原始PHP数组

从print_r输出重新创建原始PHP数组

php 2022-01-01 823
尝试使用Spring Boot REST从POST读取JSON字符串

尝试使用Spring Boot REST从POST读取JSON字符串

Java 2022-01-01 828
如何从Postman Rest Client发送Spring CSRF令牌？

如何从Postman Rest Client发送Spring CSRF令牌？

Java 2022-01-01 804
LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

php 2022-01-01 881
从PHP运行返回错误。AJAX？

从PHP运行返回错误。AJAX？

php 2022-01-01 790
如何从python mysql查询中转义％

如何从python mysql查询中转义％

MySQL 2022-01-01 796
从PHP中的小数中删除无用的零数字

从PHP中的小数中删除无用的零数字

php 2022-01-01 846
如何从PHP脚本发送500 Internal Server Error错误

如何从PHP脚本发送500 Internal Server Error错误

php 2022-01-01 613

从python中的xml文档中提取文本

撰写回答

推荐问题

从Python访问errno？

从Python字符串中删除不在允许列表中的HTML标签

从python读取json文件

为什么从Promise`.then`中进行回调是一种反模式

从PostgreSQL数据库到Elasticsearch snyc /导入表的正确方法是什么？

自动从PHP代码中删除注释的最佳方法

为什么从PHP 5.4开始永久启用“ echo”短标签？

如何将变量和数据从PHP传递到JavaScript？

如何从PHP中的XML文件获取属性的值？

如何从Perl CGI程序发送JSON响应？

如何从PHP文本中删除空白行？

从POST获取复选框数组值

从print_r输出重新创建原始PHP数组

尝试使用Spring Boot REST从POST读取JSON字符串

如何从Postman Rest Client发送Spring CSRF令牌？

LOAD DATA LOCAL INFILE失败-从php到mysql（在Amazon rds上）

从PHP运行返回错误。AJAX？

如何从python mysql查询中转义％

从PHP中的小数中删除无用的零数字

如何从PHP脚本发送500 Internal Server Error错误

分类汇总

您的鼓励是对我最大的支持