您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 使用lxml.html提取文本

5b51 2022/1/14 8:23:04 python 字数 1820 阅读 589 来源 www.jb51.cc/python

我有一个 HTML文件: <html> <p>somestr <sup>1</sup> anotherstr </p> </html> 我想将文本提取为: ?somestr1anotherstr 但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是: for i in doc.xpath('.//p/

概述

<html>
    <p>somestr
        <sup>1</sup>
       anotherstr
    </p>
</html>

我想将文本提取为:
somestr1anotherstr

但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是:

for i in doc.xpath('.//p/text()|.//sup/text()'):
    if i.tag == 'sup':
        print to_sup(i),else:
        print i,

但我的ElementStringResult似乎没有一个方法获取标签名称,所以我有点迷失.任何想法如何解决

for x in doc.xpath("//p/text()|//sup"):
    try:
        print(to_sup(x.text))
    except AttributeError:
        print(x)

总结

以上是编程之家为你收集整理的python – 使用lxml.html提取文本全部内容,希望文章能够帮你解决python – 使用lxml.html提取文本所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶