在python中有效地计算单词频率

最简洁的方法是使用Python提供的工具。

from future_builtins import map  # Only on Python 2

from collections import Counter
from itertools import chain

def countInFile(filename):
    with open(filename) as f:
        return Counter(chain.from_iterable(map(str.split, f)))

而已。map(str.split, f)使生成器list从每一行返回s个单词。包装chain.from_iterable将其转换为单个生成器，一次生成一个单词。Counter接受一个可迭代的输入，并计算其中的所有唯一值。最后，您return是一个类似dict的对象（a Counter），用于存储所有唯一单词及其计数，并且在创建期间，您一次只存储一行数据和总计数，而不是一次存储整个文件。

从理论上讲，在Python 2.7和3.1上，您可以自己更好地循环使用链结结果，并使用dict或collections.defaultdict(int)进行计数（因为Counter在Python中实现，在某些情况下会使其变慢），但让Counter工作更简单以及更多自我记录（我的意思是，整个目标都在计算，因此请使用Counter）。除此之外，在cpython（参考解释器）3.2和更高版本上，Counter还具有C级加速器，用于对可迭代的输入进行计数，其运行速度比纯Python中编写的任何代码都要快。

您似乎想删除标点符号并且不区分大小写，所以这是我以前的代码的一种变体，它可以做到：

from string import punctuation

def countInFile(filename):
    with open(filename) as f:
        linewords = (line.translate(None, punctuation).lower().split() for line in f)
        return Counter(chain.from_iterable(linewords))

你的代码的运行速度要慢得多，因为它创建和销毁许多小型Counter和set对象，而不是.update-ing单Counter每行（其中，而稍比我在更新的代码块给速度较慢，至少会在比例因子算法类似的一次）。

python 2022/1/1 18:43:47 有287人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 1182
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1177
如何使用bcrypt在PHP中对密码进行哈希处理？

如何使用bcrypt在PHP中对密码进行哈希处理？

php 2022-01-01 928
如何在PHP中使用XMLReader？

如何在PHP中使用XMLReader？

php 2022-01-01 1068
PDOException“找不到驱动程序”在PHP

PDOException“找不到驱动程序”在PHP

php 2022-01-01 1050
为什么在pom.xml的第1行中出现Unknown错误？

为什么在pom.xml的第1行中出现Unknown错误？

其他 2022-01-01 1231
__construct（）与SameAsClassName（）在PHP中的构造函数

__construct（）与SameAsClassName（）在PHP中的构造函数

php 2022-01-01 857
使用Retrofit2在POST请求中发送JSON

使用Retrofit2在POST请求中发送JSON

其他 2022-01-01 960
用单引号在PHP中打印换行符

用单引号在PHP中打印换行符

php 2022-01-01 873
可以嵌套在P元素内的HTML5元素列表？

可以嵌套在P元素内的HTML5元素列表？

其他 2022-01-01 900
为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

php 2022-01-01 845
如何在PHP中发出异步GET请求？

如何在PHP中发出异步GET请求？

php 2022-01-01 859
如何在php中为其他所有函数调用自动调用函数

如何在php中为其他所有函数调用自动调用函数

php 2022-01-01 917
当软键盘出现在phonegap中时，输入字段隐藏

当软键盘出现在phonegap中时，输入字段隐藏

其他 2022-01-01 879
在PHP中连接n个数组的值

在PHP中连接n个数组的值

php 2022-01-01 878
在PHP中“ =>”是什么意思？

在PHP中“ =>”是什么意思？

php 2022-01-01 899
在PHP中写入新行到文件（换行）

在PHP中写入新行到文件（换行）

php 2022-01-01 832
文件上传可以在PHP中超时吗？

文件上传可以在PHP中超时吗？

php 2022-01-01 874
如何在Python中使用Selenium滚动到页面的末尾？

如何在Python中使用Selenium滚动到页面的末尾？

python 2022-01-01 870
在PHP中对关联数组进行排序

在PHP中对关联数组进行排序

php 2022-01-01 835

在python中有效地计算单词频率

撰写回答

推荐问题

如何在PHP变量中去除空格？

我可以在php中的SESSION数组上使用array_push吗？

如何使用bcrypt在PHP中对密码进行哈希处理？

如何在PHP中使用XMLReader？

PDOException“找不到驱动程序”在PHP

为什么在pom.xml的第1行中出现Unknown错误？

__construct（）与SameAsClassName（）在PHP中的构造函数

使用Retrofit2在POST请求中发送JSON

用单引号在PHP中打印换行符

可以嵌套在P元素内的HTML5元素列表？

为什么在PHP中通过标头（'Location ..'）重定向后必须调用'exit'？

如何在PHP中发出异步GET请求？

如何在php中为其他所有函数调用自动调用函数

当软键盘出现在phonegap中时，输入字段隐藏

在PHP中连接n个数组的值

在PHP中“ =>”是什么意思？

在PHP中写入新行到文件（换行）

文件上传可以在PHP中超时吗？

如何在Python中使用Selenium滚动到页面的末尾？

在PHP中对关联数组进行排序

分类汇总

您的鼓励是对我最大的支持