In [35]: import bs4 as bs
In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>
这将使用Python的内置HTML解析器解析HTML。引用文档:
与html5lib不同,此解析器不尝试通过添加<body>
标签来创建格式正确的HTML文档。与lxml不同,它甚至不必费心添加<html>
标签。
另外,您可以使用html5lib
解析器,然后选择以下元素<body>
:
In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')
In [62]: soup.body.next
Out[62]: <h1>FOO</h1>