UnicodeEncodeError：'gbk'编解码器无法编码字符：非法的多字节序列

您需要编辑问题以显示（1）您使用的代码（2）完整的错误和回溯（3）涉及的网址（4）您尝试将其为gbk的字符是什么

您似乎已经从html内容中的原始字节中获得了unicode字符-怎么样？html内容中指定了什么编码？

然后（我猜），您正在尝试将unicode字符写入文件，并将unicode最终编码为gbk。在此过程中，您会看到类似以下的错误：

>>> u'\uffff'.encode('gbk')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'gbk' codec can't encode character u'\uffff' in position 0: illegal multibyte sequence
>>>

如果html内容中的原始字节未使用gbk编码，则很有可能您有一些unicode字符无法用gbk表示。在这种情况下，您可能希望使用原始编码对结果进行编码，或者将其编码在gb18030中，该编码可以采用任何unicode字符。

另一种可能性是您以某种方式破坏了原始字节或unicode。我当然希望您的正则表达式是在unicode上完成的，而不是在某些gb2312，gbk等可变长度字符编码上完成的。

这是您的代码段：

import sys, urllib.request
url = "http://www.meilishuo.com"
wp = urllib.request.urlopen(url)
content = wp.read()
str_content = content.decode('utf-8')
fp = open("web.txt","w")
fp.write(str_content)
fp.close()

据此，我不得不得出以下结论：（1）您正在运行Python 3.x （2）sys.defaultencoding ==“ gbk” －否则您将不会收到错误消息，该错误消息是您先前报告的。

由于我的sys.defaultencoding不是’gbk’，因此我将最后3行替换为，gbk_content = str_content.encode('gbk')并使用Python 3.1.2运行了经过修改的代码段。

观察结果：

（1）网站具有charset = utf-8，用utf-8解码正常（2）错误消息：UnicodeEncodeError: 'gbk' codec can't encode character '\u2764' in position 35070: illegal multibyte sequence

\u2664是dingbat（HEAVY BLACK HEART）。网站是动态的；在另一种尝试中，第一个令人反感的字符是\ xa9（COPYRIGHT SIGN）。

因此，网页包含未在gbk中映射的Unicode字符。选项是

（1）使用’gbk’编码，但使用’replace’选项（2）使用’gbk’编码，但使用’ignore’选项（3）使用支持所有Unicode字符（utf-8，gb18030）的编码和为此，您需要使用一种显示机制来渲染所有不在gbk中的字符

其他 2022/1/1 18:25:04 有688人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

ESLint-组件应被编写为纯函数（react preferred / stateless function）

ESLint-组件应被编写为纯函数（react preferred / stateless function）

其他 2022-01-01 1146
带有React的ESLint会给出“ no-unused-vars”错误

带有React的ESLint会给出“ no-unused-vars”错误

其他 2022-01-01 1185
使用Spring Functional Web Framework的REST端点的背压

使用Spring Functional Web Framework的REST端点的背压

Java 2022-01-01 1238
无法在Ubuntu上将ElasticSearch作为服务运行

无法在Ubuntu上将ElasticSearch作为服务运行

其他 2022-01-01 969
手册页中Unix命令名称后的括号中的数字是什么意思？

手册页中Unix命令名称后的括号中的数字是什么意思？

其他 2022-01-01 1112
java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java 2022-01-01 1191
使用npm命令时SSL错误：CERT_UNTRUSTED

使用npm命令时SSL错误：CERT_UNTRUSTED

其他 2022-01-01 719
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 982
Spring / Hibernate / JUnit-没有Hibernate Session绑定到线程

Spring / Hibernate / JUnit-没有Hibernate Session绑定到线程

Java 2022-01-01 984
iTunesConnect TestFlight的iOS应用版本和内部版本号

iTunesConnect TestFlight的iOS应用版本和内部版本号

其他 2022-01-01 1018
elasticsearch-Ubuntu-拒绝连接

elasticsearch-Ubuntu-拒绝连接

其他 2022-01-01 1006
为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

其他 2022-01-01 929
蚂蚁找不到Javac，JAVA_HOME不会在Ubuntu上设置

蚂蚁找不到Javac，JAVA_HOME不会在Ubuntu上设置

java 2022-01-01 1028
javax.net.ssl.SSLPeerUnverifiedException：使用JMeter进行负载测试时未对等身份验证

javax.net.ssl.SSLPeerUnverifiedException：使用JMeter进行负载测试时未对等身份验证

java 2022-01-01 880
没有基本的HTTP身份验证，如何强制MockitoJUnitRunner失败？

没有基本的HTTP身份验证，如何强制MockitoJUnitRunner失败？

其他 2022-01-01 1066
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1226
无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

java 2022-01-01 1082
$ .ajax（）和“ Uncaught ReferenceError：数据未定义”

$ .ajax（）和“ Uncaught ReferenceError：数据未定义”

其他 2022-01-01 851
LINQ与groupby和count

LINQ与groupby和count

其他 2022-01-01 840
如何通过Webkit如何在Ubuntu 11.04（Natty Narwhal）上运行Eclipse SWT Browser组件？

如何通过Webkit如何在Ubuntu 11.04（Natty Narwhal）上运行Eclipse SWT Browser组件？

其他 2022-01-01 1009

UnicodeEncodeError：'gbk'编解码器无法编码字符：非法的多字节序列

撰写回答

推荐问题

ESLint-组件应被编写为纯函数（react preferred / stateless function）

带有React的ESLint会给出“ no-unused-vars”错误

使用Spring Functional Web Framework的REST端点的背压

无法在Ubuntu上将ElasticSearch作为服务运行

手册页中Unix命令名称后的括号中的数字是什么意思？

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

使用npm命令时SSL错误：CERT_UNTRUSTED

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Spring / Hibernate / JUnit-没有Hibernate Session绑定到线程

iTunesConnect TestFlight的iOS应用版本和内部版本号

elasticsearch-Ubuntu-拒绝连接

为什么在React中认为cancelledPromise模式比isMounted（）“反模式”更好？

蚂蚁找不到Javac，JAVA_HOME不会在Ubuntu上设置

javax.net.ssl.SSLPeerUnverifiedException：使用JMeter进行负载测试时未对等身份验证

没有基本的HTTP身份验证，如何强制MockitoJUnitRunner失败？

为什么在pom.xml的第1行中出现Unknown错误？

无法使用Runtime.exec（）在Android Java代码中执行shell命令“ echo”

$ .ajax（）和“ Uncaught ReferenceError：数据未定义”

LINQ与groupby和count

如何通过Webkit如何在Ubuntu 11.04（Natty Narwhal）上运行Eclipse SWT Browser组件？

分类汇总

您的鼓励是对我最大的支持