我希望有人以前做过,但是显然没有,所以这就是我最后的目的。下面的模块(我称它为unicodedata2
)进行了扩展,unicodedata
并提供了script_cat(chr)
它为unicode char返回一个元组(脚本名称,类别)。例:
# coding=utf8
import unicodedata2
print unicodedata2.script_cat(u'Ф') #('Cyrillic', 'L')
print unicodedata2.script_cat(u'の') #('Hiragana', 'Lo')
print unicodedata2.script_cat(u'★') #('Common', 'So')
模块:https://gist.github.com/2204527