nltk.probability.FreqDist
是的子类collections.Counter
。
从文档:
实验结果的频率分布。频率分布记录了每个实验结果发生的次数。例如,频率分布可用于记录文档中每个单词类型的频率。形式上,频率分布可以定义为从每个样本到样本作为结果出现的次数的函数映射。
继承是从代码中显式显示的,从本质上讲,在Counter
和FreqDist
初始化方式方面没有区别,请参见https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L106
因此,速度方面,创建Counter
和FreqDist
应该是相同的。速度的差异应该微不足道,但是最好注意开销可能是:
主要区别在于FreqDist
提供统计/概率自然语言处理(NLP)的各种功能,例如查找hapaxes。FreqDist
扩展的功能的完整列表Counter
如下:
>>> from collections import Counter
>>> from nltk import FreqDist
>>> x = FreqDist()
>>> y = Counter()
>>> set(dir(x)).difference(set(dir(y)))
set(['plot', 'hapaxes', '_cumulative_frequencies', 'r_Nr', 'pprint', 'N', 'unicode_repr', 'B', 'tabulate', 'pformat', 'max', 'Nr', 'freq', '__unicode__'])
在使用时FreqDist.most_common()
,实际上是从使用父函数,Counter
因此most_common
两种类型的检索排序列表的速度都相同。
就个人而言,当我只想检索计数时,我使用collections.Counter
。但是,当我需要进行一些统计操作时,可以使用nltk.FreqDist
或将其转储Counter
到中pandas.DataFrame
(请参见将Counter对象转换为Pandas DataFrame)。