一个针对非ASCII的弹性，实际工作的CSV实现？

您正在尝试将解决方案应用于问题。注意：

def utf_8_encoder（）

您正在喂它的str对象。

读取非ASCII CSV文件的问题是您不知道编码，也不知道定界符。如果您确实知道编码（并且它是基于ASCII的编码（例如cp125x，任何东亚编码，UTF-8，不是 UTF-16，不是 UTF-32））和定界符，那么它将起作用：

for row in csv.reader("foo.csv", delimiter=kNown_delimiter):
   row = [item.decode(encoding) for item in row]

您的sample_euro.csv看起来像带逗号分隔符的cp1252。俄语看起来像带有分号分隔符的cp1251。顺便说一句，从内容看来，您还需要确定所使用的日期格式，也可能要确定货币- 俄罗斯的示例中包含货币金额，后跟一个空格，并用西里尔字母表示“卢布”。

请仔细注意：阻止所有试图说服您具有ISO-8859-1编码文件的尝试。它们在cp1252中编码。

以回应评论“”。如果我理解您的意思，则必须知道编码才能使其正常工作？在一般情况下，我将不知道编码，并且基于其他答案，猜测编码非常困难，所以我不走运吗？“”“

您必须知道编码才能正常进行文件阅读练习。

对于任何大小的文件中的任何编码，始终可以正确地猜测编码不是很困难-这是不可能的。但是，将范围限制为使用用户区域设置的默认编码从Excel或Open Office中保存的csv文件，并且大小合理，这并不是一件大事。我建议您尝试一下chardet。它会windows-1252为您的欧元文件和windows-1251俄罗斯文件进行猜测- 考虑到它们的体积很小，这是一个了不起的成就。

响应“”“ 将是最受欢迎的”“”

工作代码（Python 2.x）：

from chardet.universaldetector import UniversalDetector
chardet_detector = UniversalDetector()

def charset_detect(f, chunk_size=4096):
    global chardet_detector
    chardet_detector.reset()
    while 1:
        chunk = f.read(chunk_size)
        if not chunk: break
        chardet_detector.Feed(chunk)
        if chardet_detector.done: break
    chardet_detector.close()
    return chardet_detector.result

# Exercise for the reader: replace the above with a class

import csv    
import sys
from pprint import pprint

pathname = sys.argv[1]
delim = sys.argv[2] # allegedly kNown
print "delim=%r pathname=%r" % (delim, pathname)

with open(pathname, 'rb') as f:
    cd_result = charset_detect(f)
    encoding = cd_result['encoding']
    confidence = cd_result['confidence']
    print "chardet: encoding=%s confidence=%.3f" % (encoding, confidence)
    # insert actions contingent on encoding and confidence here
    f.seek(0)
    csv_reader = csv.reader(f, delimiter=delim)
    for bytes_row in csv_reader:
        unicode_row = [x.decode(encoding) for x in bytes_row]
        pprint(unicode_row)

输出1：

delim=',' pathname='sample-euro.csv'
chardet: encoding=windows-1252 confidence=0.500
[u'31-01-11',
 u'Overf\xf8rsel utland',
 u'UTLBET; ID 9710032001647082',
 u'1990.00',
 u'']
[u'31-01-11',
 u'Overf\xf8ring',
 u'OVERF\xd8RING MELLOM EGNE KONTI',
 u'5750.00',
 u';']

输出2：

delim=';' pathname='sample-russian.csv'
chardet: encoding=windows-1251 confidence=0.602
[u'-',
 u'04.02.2011 23:20',
 u'300,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041c\u0422\u0421',
 u'']
[u'-',
 u'04.02.2011 23:15',
 u'450,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041e\u043f\u043b\u0430\u0442\u0430 Interzet',
 u'']
[u'-',
 u'13.01.2011 02:05',
 u'100,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041c\u0422\u0421 kolombina',
 u'']

这些文件的来源是什么？如果从Excel或OpenOffice Calc或Gnumeric中将它们“另存为CSV”，则可以通过将它们另存为“ Excel 97-2003工作簿（* .xls）”并使用xlrd读取它们来避免整个编码过程。这也省去了必须检查每个csv文件以确定定界符（逗号与分号），日期格式（2011年1月31日与2011年4月2日）和“小数点”（5750.00与450,00）的麻烦- - 所有这些差异大概是通过另存为CSV来创建的 。免责声明：我是的作者xlrd。

其他 2022/1/1 18:43:28 有577人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

一个针对非ASCII的弹性，实际工作的CSV实现？

撰写回答

推荐问题

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

在Jenkins API中，有没有办法找到上一个版本的git commit？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

将值从一个字段拆分为两个

创建一个常量类型并限制类型的值

如何在iReport中打印另一个列表中包含的字符串列表？

选择最后一个插入ID

在.CSS文件中创建一个变量，以在该.CSS文件中使用[重复]

如何获得一个值的价值

我有一个base64编码的png，如何将图像写入PHP中的文件？

not-null属性引用一个null或瞬态值

在Linux中将共享库与另一个共享库链接

向Docker添加一个卷，但不包括一个子文件夹

array_push（）与$ array [] =…哪一个最快？[重复]

在MySQL中获取下个月的第一个和最后一个日期

连接所有PostgreSQL表并创建一个Python字典

依次遍历mongodb游标（在等待回调之前，移至下一个文档）

Hibernate错误：org.hibernate.NonUniqueObjectException：具有相同标识符值的另一个对象已与会话关联

在Gson中反序列化一个抽象类

方法链接-为什么这是一个好习惯？

分类汇总

您的鼓励是对我最大的支持