忽略Python（iterparse）中的编码错误？

你说：

导致该问题的字符是：

你怎么知道？您正在用什么来查看文字？

因此，您无法发布URL和API密钥；读取数据，将其写入文件（以二进制模式）并发布该怎么办？

当您在网络浏览器中打开该文件时，它将检测到什么编码？

至少要这样做

data.decode('utf8') # where data is what you get from ur.read()

这将产生一个异常，告诉您非UTF-8数据的字节偏移。

然后这样做：

print repr(data[offset-10:offset+60])

并向我们??展示结果。

假设编码实际上是cp1252在解码lxml错误消息中的字节：

>>> guff = "\xEA\x76\x65\x73"
>>> from unicodedata import name
>>> [name(c) for c in guff.decode('1252')]
['LATIN SMALL LETTER E WITH CIRCUMFLEX', 'LATIN SMALL LETTER V', 'LATIN SMALL LE
TTER E', 'LATIN SMALL LETTER S']
>>>

那么，您是否看到e-circumflex ves，或，a-ring紧随其后ves，或a-ring紧随其后？

数据是否以XML声明开头<?xml version="1.0" encoding="UTF-8"?>？如果没有，它是从什么开始的？

猜测/确认编码的线索：文字是用哪种语言编写的？什么国家？

。

根据您在错误附近显示的摘录，电影的标题为“ La science desrêves”（梦的科学）。

有趣的是，PHP如何在“ F *** ingÅmål”上作呕，但Python在法国梦中cho住。确定要执行相同的查询吗？

您应该已经告诉我们这是IMDB，因此您会早点得到答案。

在传递data给lxml解析器之前，请执行以下操作：

data = data.replace('encoding="UTF-8"', 'encoding="iso-8859-1"')

这是基于他们在网站上声明的编码，但这也可能是一个谎言。在这种情况下，请尝试cp1252。绝对。

python 2022/1/1 18:32:50 有220人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何通过忽略Swift中的关联值来比较枚举和关联值？

Swift 2022-01-01 1139
Docker忽略limits.conf（试图解决“打开文件太多”错误）

Docker忽略limits.conf（试图解决“打开文件太多”错误）

其他 2022-01-01 851
忽略Hibernate @Where批注

忽略Hibernate @Where批注

其他 2022-01-01 672
Hibernate忽略fetchgraph

Hibernate忽略fetchgraph

其他 2022-01-01 928
Spring MVC 3.2-XStreamAlias被忽略

Spring MVC 3.2-XStreamAlias被忽略

Java 2022-01-01 755
来自jsp：include的response.sendRedirect（）是否被忽略？

来自jsp：include的response.sendRedirect（）是否被忽略？

其他 2022-01-01 660
如何忽略fmt.Sprintf的其他字段

如何忽略fmt.Sprintf的其他字段

其他 2022-01-01 702
比较两个清单相等的对象，忽略顺序[重复]

比较两个清单相等的对象，忽略顺序[重复]

其他 2022-01-01 772
C＃忽略证书错误？

C＃忽略证书错误？

c# 2022-01-01 551
Java：分割以逗号分隔的字符串，但忽略括号中的逗号

Java：分割以逗号分隔的字符串，但忽略括号中的逗号

java 2022-01-01 682
Logstash中的JSON解析器会忽略数据吗？

Logstash中的JSON解析器会忽略数据吗？

其他 2022-01-01 748
Gitlab-CI运行程序：忽略自签名证书

Gitlab-CI运行程序：忽略自签名证书

其他 2022-01-01 707
Hibernate查询以忽略时间戳的日期获取记录

Hibernate查询以忽略时间戳的日期获取记录

其他 2022-01-01 722
忽略Firefox中特定于Webkit的CSS选择器

忽略Firefox中特定于Webkit的CSS选择器

CSS 2022-01-01 667
忽略时区Angularjs

忽略时区Angularjs

其他 2022-01-01 690
使用WebDriver时是否可以忽略JavaScript异常（HtmlUnit，Ruby绑定）

使用WebDriver时是否可以忽略JavaScript异常（HtmlUnit，Ruby绑定）

javascript 2022-01-01 751
忽略关系中的FetchType.EAGER

忽略关系中的FetchType.EAGER

其他 2022-01-01 729
Spring Security过滤器链不会忽略指定的路径

Spring Security过滤器链不会忽略指定的路径

Java 2022-01-01 845
创建zip文件并忽略目录结构

创建zip文件并忽略目录结构

其他 2022-01-01 645
Spring @Transactional注释被忽略

Spring @Transactional注释被忽略

Java 2022-01-01 722

忽略Python（iterparse）中的编码错误？

撰写回答

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

Docker忽略limits.conf（试图解决“打开文件太多”错误）

忽略Hibernate @Where批注

Hibernate忽略fetchgraph

Spring MVC 3.2-XStreamAlias被忽略

来自jsp：include的response.sendRedirect（）是否被忽略？

如何忽略fmt.Sprintf的其他字段

比较两个清单相等的对象，忽略顺序[重复]

C＃忽略证书错误？

Java：分割以逗号分隔的字符串，但忽略括号中的逗号

Logstash中的JSON解析器会忽略数据吗？

Gitlab-CI运行程序：忽略自签名证书

Hibernate查询以忽略时间戳的日期获取记录

忽略Firefox中特定于Webkit的CSS选择器

忽略时区Angularjs

使用WebDriver时是否可以忽略JavaScript异常（HtmlUnit，Ruby绑定）

忽略关系中的FetchType.EAGER

Spring Security过滤器链不会忽略指定的路径

创建zip文件并忽略目录结构

Spring @Transactional注释被忽略

分类汇总

您的鼓励是对我最大的支持