概述
<html> <p>somestr <sup>1</sup> anotherstr </p> </html>
我想将文本提取为:
somestr1anotherstr
但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是:
for i in doc.xpath('.//p/text()|.//sup/text()'): if i.tag == 'sup': print to_sup(i),else: print i,
但我的ElementStringResult似乎没有一个方法来获取标签名称,所以我有点迷失.任何想法如何解决?
for x in doc.xpath("//p/text()|//sup"): try: print(to_sup(x.text)) except AttributeError: print(x)
总结
以上是编程之家为你收集整理的python – 使用lxml.html提取文本全部内容,希望文章能够帮你解决python – 使用lxml.html提取文本所遇到的程序开发问题。
如果您也喜欢它,动动您的小指点个赞吧