您可以仅使用unicode
函数就可以轻松地转换文件,但是如果没有与ASCII直接对应的Unicode字符,就会遇到问题。
该博客推荐该[unicodedata ](http://www.python.org/doc/2.5.2/lib/module- unicodedata.html)
模块,该模块似乎可以粗略地转换字符而无需直接对应的ASCII值,例如
>>> title = u"Klüft skräms inför på fédéral électoral große"
通常转换为
Klft skrms infr p fdral lectoral groe
这是非常错误的。但是,使用该unicodedata
模块,结果可能更接近原始文本:
>>> import unicodedata
>>> unicodedata.normalize('NFKD', title).encode('ascii','ignore')
'Kluft skrams infor pa federal electoral groe'