您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

Python的collections.Counter和nltk.probability.FreqDist之间的区别

Python的collections.Counter和nltk.probability.FreqDist之间的区别

nltk.probability.FreqDist是的子类collections.Counter

文档

实验结果的频率分布。频率分布记录了每个实验结果发生的次数。例如,频率分布可用于记录文档中每个单词类型的频率。形式上,频率分布可以定义为从每个样本到样本作为结果出现的次数函数映射。

继承是从代码中显式显示的,从本质上讲,在CounterFreqDist初始化方式方面没有区别,请参见https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L106

因此,速度方面,创建CounterFreqDist应该是相同的。速度的差异应该微不足道,但是最好注意开销可能是:

主要区别在于FreqDist提供统计/概率自然语言处理(NLP)的各种功能,例如查找hapaxesFreqDist扩展的功能的完整列表Counter如下:

>>> from collections import Counter
>>> from nltk import FreqDist
>>> x = FreqDist()
>>> y = Counter()
>>> set(dir(x)).difference(set(dir(y)))
set(['plot', 'hapaxes', '_cumulative_frequencies', 'r_Nr', 'pprint', 'N', 'unicode_repr', 'B', 'tabulate', 'pformat', 'max', 'Nr', 'freq', '__unicode__'])

在使用时FreqDist.most_common(),实际上是从使用父函数Counter因此most_common两种类型的检索排序列表的速度都相同。

就个人而言,当我只想检索计数时,我使用collections.Counter。但是,当我需要进行一些统计操作时,可以使用nltk.FreqDist或将其转储Counter到中pandas.DataFrame(请参见将Counter对象转换为Pandas DataFrame)。

python 2022/1/1 18:39:08 有273人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶