您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

Python如何使用十六进制字符解码unicode

Python如何使用十六进制字符解码unicode

问题所在

msg = u'\xe3\x80\x90\xe4\xb8\xad\xe5\xad\x97\xe3\x80\x91'
result = msg.decode('utf8')

是您正在尝试解码Unicode。那真的没有道理。您可以 Unicode编码为某种编码类型,也可以将字节字符串解码 Unicode。

当你做

msg.decode('utf8')

Python 2看到这msg是Unicode。它知道它无法解码Unicode,因此“有帮助”地假定您要msg使用认的ASCII编解码器进行编码,以便可以使用UTF-8编解码器将该转换的结果解码为Unicode。Python 3的行为更加明智:代码会因以下原因而失败

AttributeError: 'str' object has no attribute 'decode'

kennytm的答案中给出的技术:

msg.encode('latin1').decode('utf-8')

之所以起作用,是因为小于256的Unicode代码点直接对应于Latin1编码中的字符(也称为ISO 8859-1)。

这是一些Python 2代码,说明了这一点:

for i in xrange(256):
    lat = chr(i)
    uni = unichr(i)
    assert lat == uni.encode('latin1')
    assert lat.decode('latin1') == uni

这是等效的Python 3代码

for i in range(256):
    lat = bytes([i])
    uni = chr(i)
    assert lat == uni.encode('latin1')
    assert lat.decode('latin1') == uni

您可能会发现这篇文章很有帮助:实用Unicode,由SO老手Ned Batchelder编写。

除非您被迫使用Python 2,否则我强烈建议您切换到python3。这将大大减少处理Unicode的痛苦。

python 2022/1/1 18:28:23 有185人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶