如他们的文档 所述,该文档的html5lib
解析方式与网络浏览器一样(lxml
在这种情况下,类似于)。在需要时,它将尝试通过添加/关闭标签来修复文档树。
在您的示例中,我使用lxml作为解析器,它给出了以下结果:
soup = BeautifulSoup(data, "lxml")
table = soup.findAll("table")[0]
rows = table.find_all('tr')
for tr in rows:
print(tr.get_text(strip=True))