您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

Python-BeautifulSoup-如何处理缺少的结束标记

Python-BeautifulSoup-如何处理缺少的结束标记

如他们的文档 所述,该文档的html5lib解析方式与网络浏览器一样(lxml在这种情况下,类似于)。在需要时,它将尝试通过添加/关闭标签来修复文档树。

在您的示例中,我使用lxml作为解析器,它给出了以下结果:

soup = BeautifulSoup(data, "lxml")
table = soup.findAll("table")[0]
rows = table.find_all('tr')
for tr in rows:
    print(tr.get_text(strip=True))

请注意,lxml添加了html和body标签,因为它们不在源中(它会尝试按照先前的状态创建格式正确的文档)。

python 2022/1/1 18:39:44 有257人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶