网站的Python正确编码（BeautifulSoup）

您犯了两个错误；您对编码的处理不当，并且将结果列表视为可以安全地转换为字符串而不丢失信息的内容。

首先，不要使用response.text！此处不是BeautifulSoup错误，您正在重新编码Mojibake。当服务器未明确指定编码时，该requests库将对text/*内容类型默认使用Latin-1编码，因为HTTP标准指出这是默认设置。

请参阅高级文档的“编码” 部分 __：

唯一的一次请求不会做到这一点，如果没有明确的字符集是存在于HTTP头，并在Content-Type头中包含text。。在这种情况下，请求遵循规范。如果需要其他编码，则可以手动设置Response.encoding属性，或使用rawResponse.content。

大胆强调我的。

传递response.content原始数据：

soup = BeautifulSoup(r.content)

我看到您使用的是BeautifulSoup3。您确实想升级到BeautifulSoup 4。第3版已于2012年停产，并包含多个错误。安装beautifulsoup4项目，并使用from bs4 import BeautifulSoup。

BeautifulSoup 4通常可以很好地找出解析时使用的正确编码，无论是从HTML<Meta>标记还是对提供的字节进行统计分析。如果服务器确实提供了字符集，您仍然可以从响应中将其传递给BeautifulSoup，但是如果requests使用默认值，请首先进行测试：

encoding = r.encoding if 'charset' in r.headers.get('content-type', '').lower() else None
soup = BeautifulSoup(r.content, from_encoding=encoding)

最后但并非最不重要的一点是，使用BeautifulSoup 4，您可以使用soup.get_text()以下命令从页面中提取所有文本：

text = soup.get_text()
print text

您正在将 结果列表 （的返回值soup.findAll()）转换为字符串。这永远都行不通，因为Python中的容器会在repr()列表中的每个元素上使用以生成调试字符串 ，对于字符串而言，这意味着您会获得所有非可打印ASCII字符的转义序列。

python 2022/1/1 18:36:33 有248人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

JS 2022-01-01 1221
检查网站是否在iframe中

检查网站是否在iframe中

其他 2022-01-01 952
如何在Azure网站上的React App中替换％PUBLIC_URL％

如何在Azure网站上的React App中替换％PUBLIC_URL％

其他 2022-01-01 993
JavaScript动态更改网站图标

JavaScript动态更改网站图标

javascript 2022-01-01 746
本地（file：//）网站图标网站可在Firefox中运行，而不能在Chrome或Safari中运行-为什么？

本地（file：//）网站图标网站可在Firefox中运行，而不能在Chrome或Safari中运行-为什么？

其他 2022-01-01 776
SSL错误阻止网站登录混乱

SSL错误阻止网站登录混乱

其他 2022-01-01 683
ADOdb中的SQL注入和一般网站安全性

ADOdb中的SQL注入和一般网站安全性

SQLServer 2022-01-01 662
无法禁用Django CSRF框架，这破坏了我的网站

无法禁用Django CSRF框架，这破坏了我的网站

Go 2022-01-01 979
一个PHP脚本，可让用户从我的网站下载文件而无需透露我网站中的实际文件链接？

一个PHP脚本，可让用户从我的网站下载文件而无需透露我网站中的实际文件链接？

php 2022-01-01 786
由于CORS，Azure网站上的HTTP OPTIONS请求失败

由于CORS，Azure网站上的HTTP OPTIONS请求失败

其他 2022-01-01 786
Android WebView：仅显示网站的一部分

Android WebView：仅显示网站的一部分

其他 2022-01-01 754
如何为触摸设备优化网站

如何为触摸设备优化网站

其他 2022-01-01 771
我的网站运行在Docker容器中，如何实现虚拟主机？

我的网站运行在Docker容器中，如何实现虚拟主机？

其他 2022-01-01 834
如何阻止Chrome将网站的输入框泛黄？

如何阻止Chrome将网站的输入框泛黄？

其他 2022-01-01 662
通过VBA提交JSP网站的Java脚本表单

通过VBA提交JSP网站的Java脚本表单

java 2022-01-01 698
iframe与父网站之间如何通信？

iframe与父网站之间如何通信？

其他 2022-01-01 608
从Android的移动网站（不是应用程序）共享WhatsApp上的链接

从Android的移动网站（不是应用程序）共享WhatsApp上的链接

其他 2022-01-01 754
用于创建网站屏幕截图的命令行程序（在Linux上）

用于创建网站屏幕截图的命令行程序（在Linux上）

其他 2022-01-01 752
JavaScript使用selenium and in chrome，网站能检测到吗？

JavaScript使用selenium and in chrome，网站能检测到吗？

javascript 2022-01-01 706
网站可以检测到您何时在chromedriver中使用selenium吗？

网站可以检测到您何时在chromedriver中使用selenium吗？

其他 2022-01-01 750

网站的Python正确编码（BeautifulSoup）

撰写回答

推荐问题

Greasemonkey 1.0中的jQuery与使用jQuery的网站冲突

检查网站是否在iframe中

如何在Azure网站上的React App中替换％PUBLIC_URL％

JavaScript动态更改网站图标

本地（file：//）网站图标网站可在Firefox中运行，而不能在Chrome或Safari中运行-为什么？

SSL错误阻止网站登录混乱

ADOdb中的SQL注入和一般网站安全性

无法禁用Django CSRF框架，这破坏了我的网站

一个PHP脚本，可让用户从我的网站下载文件而无需透露我网站中的实际文件链接？

由于CORS，Azure网站上的HTTP OPTIONS请求失败

Android WebView：仅显示网站的一部分

如何为触摸设备优化网站

我的网站运行在Docker容器中，如何实现虚拟主机？

如何阻止Chrome将网站的输入框泛黄？

通过VBA提交JSP网站的Java脚本表单

iframe与父网站之间如何通信？

从Android的移动网站（不是应用程序）共享WhatsApp上的链接

用于创建网站屏幕截图的命令行程序（在Linux上）

JavaScript使用selenium and in chrome，网站能检测到吗？

网站可以检测到您何时在chromedriver中使用selenium吗？

分类汇总

您的鼓励是对我最大的支持