不要自动放置html，head和body标签，Beautifulsoup

In [35]: import bs4 as bs

In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>

这将使用Python的内置HTML解析器解析HTML。引用文档：

与html5lib不同，此解析器不尝试通过添加<body>标签来创建格式正确的HTML文档。与lxml不同，它甚至不必费心添加<html>标签。

另外，您可以使用html5lib解析器，然后选择以下元素<body>：

In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')

In [62]: soup.body.next
Out[62]: <h1>FOO</h1>

其他 2022/1/1 18:26:14 有602人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

不要在服务器端代码中使用System.out.println

不要在服务器端代码中使用System.out.println

其他 2022-01-01 886
当引发并捕获异常时，不要在该异常时停止调试器

当引发并捕获异常时，不要在该异常时停止调试器

其他 2022-01-01 642
用phpmailer发送的邮件不要转到“已发送”的IMAP文件夹

用phpmailer发送的邮件不要转到“已发送”的IMAP文件夹

php 2022-01-01 655
jackson -不要序列化惰性对象

jackson -不要序列化惰性对象

其他 2022-01-01 619
在Json.Net中序列化属性，但不要反序列化属性

在Json.Net中序列化属性，但不要反序列化属性

dotnet 2022-01-01 593
c：forEach在上一行中已经存在时不要重复相同的值

c：forEach在上一行中已经存在时不要重复相同的值

其他 2022-01-01 648
Tar目录，但不要在归档中存储完整的绝对路径

Tar目录，但不要在归档中存储完整的绝对路径

其他 2022-01-01 665
我应该永远不要在Spring Boot项目中使用'new'关键字吗？

我应该永远不要在Spring Boot项目中使用'new'关键字吗？

Java 2022-01-01 627
如果执行shell失败，请不要让jenkins构建失败

如果执行shell失败，请不要让jenkins构建失败

其他 2022-01-01 555
如何让Selenium不要等到整个页面加载后脚本运行缓慢？

如何让Selenium不要等到整个页面加载后脚本运行缓慢？

其他 2022-01-01 700
为什么说java中的静态变量尽量不要使用？

为什么说java中的静态变量尽量不要使用？

java 2022-01-01 663
Java。从FTP读取文件，但不要完整下载

Java。从FTP读取文件，但不要完整下载

java 2022-01-01 618
Python请求：不要等待请求完成

Python请求：不要等待请求完成

python 2022-01-01 636
不要自动放置html，head和body标签，Beautifulsoup

不要自动放置html，head和body标签，Beautifulsoup

其他 2022-01-01 602
recyclerview滚动并保持在旧位置不要转到顶部

recyclerview滚动并保持在旧位置不要转到顶部

其他 2022-01-01 623
在Windows上设置Python，不要在cmd中键入“ python”

在Windows上设置Python，不要在cmd中键入“ python”

python 2022-01-01 641
在Python中运行后台进程，不要等待

在Python中运行后台进程，不要等待

python 2022-01-01 591
不要等待在Python中使用Selenium加载页面

不要等待在Python中使用Selenium加载页面

python 2022-01-01 601
不要从超类构造函数中调用子类方法

不要从超类构造函数中调用子类方法

其他 2022-01-01 692
不要从argparse的print_help（）中两次显示长选项

不要从argparse的print_help（）中两次显示长选项

其他 2022-01-01 657

不要自动放置html，head和body标签，Beautifulsoup

撰写回答

推荐问题

不要在服务器端代码中使用System.out.println

当引发并捕获异常时，不要在该异常时停止调试器

用phpmailer发送的邮件不要转到“已发送”的IMAP文件夹

jackson -不要序列化惰性对象

在Json.Net中序列化属性，但不要反序列化属性

c：forEach在上一行中已经存在时不要重复相同的值

Tar目录，但不要在归档中存储完整的绝对路径

我应该永远不要在Spring Boot项目中使用'new'关键字吗？

如果执行shell失败，请不要让jenkins构建失败

如何让Selenium不要等到整个页面加载后脚本运行缓慢？

为什么说java中的静态变量尽量不要使用？

Java。从FTP读取文件，但不要完整下载

Python请求：不要等待请求完成

不要自动放置html，head和body标签，Beautifulsoup

recyclerview滚动并保持在旧位置不要转到顶部

在Windows上设置Python，不要在cmd中键入“ python”

在Python中运行后台进程，不要等待

不要等待在Python中使用Selenium加载页面

不要从超类构造函数中调用子类方法

不要从argparse的print_help（）中两次显示长选项

分类汇总

您的鼓励是对我最大的支持