从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

只需使用ntlk.ngrams。

import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from collections import Counter

text = "I need to write a program in NLTK that breaks a corpus (a large collection of \
txt files) into unigrams, bigrams, trigrams, fourgrams and fivegrams.\ 
I need to write a program in NLTK that breaks a corpus"
token = nltk.word_tokenize(text)
bigrams = ngrams(token,2)
trigrams = ngrams(token,3)
fourgrams = ngrams(token,4)
fivegrams = ngrams(token,5)

print Counter(bigrams)

Counter({('program', 'in'): 2, ('NLTK', 'that'): 2, ('that', 'breaks'): 2,
 ('write', 'a'): 2, ('breaks', 'a'): 2, ('to', 'write'): 2, ('I', 'need'): 2,
 ('a', 'corpus'): 2, ('need', 'to'): 2, ('a', 'program'): 2, ('in', 'NLTK'): 2,
 ('and', 'fivegrams'): 1, ('corpus', '('): 1, ('txt', 'files'): 1, ('unigrams', 
','): 1, (',', 'trigrams'): 1, ('into', 'unigrams'): 1, ('trigrams', ','): 1,
 (',', 'bigrams'): 1, ('large', 'collection'): 1, ('bigrams', ','): 1, ('of',
 'txt'): 1, (')', 'into'): 1, ('fourgrams', 'and'): 1, ('fivegrams', '.'): 1,
 ('(', 'a'): 1, (',', 'fourgrams'): 1, ('a', 'large'): 1, ('.', 'I'): 1, 
('collection', 'of'): 1, ('files', ')'): 1})

更新（使用纯python）：

import os

corpus = []
path = '.'
for i in os.walk(path).next()[2]:
    if i.endswith('.txt'):
        f = open(os.path.join(path,i))
        corpus.append(f.read())
frequencies = Counter([])
for text in corpus:
    token = nltk.word_tokenize(text)
    bigrams = ngrams(token, 2)
    frequencies += Counter(bigrams)

其他 2022/1/1 18:28:15 有514人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从大文件读取JSON对象

从大文件读取JSON对象

其他 2022-01-01 522
从大HTML字符串创建jQuery对象

从大HTML字符串创建jQuery对象

JS 2022-01-01 506
从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

其他 2022-01-01 514
从大pandas中的假人重构分类变量

从大pandas中的假人重构分类变量

其他 2022-01-01 528
在Python中从大文件删除行的最快方法

在Python中从大文件删除行的最快方法

python 2022-01-01 518
从大型未排序数组中删除重复项并保持顺序

从大型未排序数组中删除重复项并保持顺序

其他 2022-01-01 519
从大量条目中实现选择框的最佳方法

从大量条目中实现选择框的最佳方法

其他 2022-01-01 473
从大型文档中提取电子邮件子字符串

从大型文档中提取电子邮件子字符串

其他 2022-01-01 518
从大表中删除列

从大表中删除列

其他 2022-01-01 514
从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

其他 2022-01-01 395
从大型结构化文本文件中提取信息

从大型结构化文本文件中提取信息

其他 2022-01-01 530
JSON中的.d是什么意思？

JSON中的.d是什么意思？

其他 2022-01-01 686
如何从ASP.NET Core中的.json文件读取AppSettings值

如何从ASP.NET Core中的.json文件读取AppSettings值

dotnet 2022-01-01 883
从Java中的.p12文件获取PrivateKey对象

从Java中的.p12文件获取PrivateKey对象

java 2022-01-01 812
如何使用Shell脚本读取包含带有句点字符的键的.properties文件

如何使用Shell脚本读取包含带有句点字符的键的.properties文件

其他 2022-01-01 457
防止缓存从磁盘加载的UIWebView中的.css文件

防止缓存从磁盘加载的UIWebView中的.css文件

CSS 2022-01-01 549
如何将Python的.py转换为.exe？

如何将Python的.py转换为.exe？

python 2022-01-01 719
100％CPU时如何提高Redis性能？分片？最快的.Net客户端？

100％CPU时如何提高Redis性能？分片？最快的.Net客户端？

dotnet 2022-01-01 587
如何使用Spring Boot和Tomcat指定我的.keystore文件？

如何使用Spring Boot和Tomcat指定我的.keystore文件？

Java 2022-01-01 523
奥尔森时区的.NET TimeZoneInfo

奥尔森时区的.NET TimeZoneInfo

dotnet 2022-01-01 535
Linux中典型的./configure有什么作用？

Linux中典型的./configure有什么作用？

其他 2022-01-01 527
无法从Docker上运行的.net核心应用连接到SQL Server Express

无法从Docker上运行的.net核心应用连接到SQL Server Express

SQLServer 2022-01-01 446
部署新的.war文件时如何清除tomcat的缓存？有配置设置吗？

部署新的.war文件时如何清除tomcat的缓存？有配置设置吗？

其他 2022-01-01 389
复选框上的.click和.change有什么区别[重复]

复选框上的.click和.change有什么区别[重复]

其他 2022-01-01 444
Redis：无法打开用于保存的.rdb：权限被拒绝

Redis：无法打开用于保存的.rdb：权限被拒绝

其他 2022-01-01 461
控制台应用程序中的.NET全局异常处理程序

控制台应用程序中的.NET全局异常处理程序

dotnet 2022-01-01 498
jQuery的.hide（）与将CSS设置为显示之间的区别：无

jQuery的.hide（）与将CSS设置为显示之间的区别：无

CSS 2022-01-01 484
SpringBoot JPA不需要@Transactional上的.save（）吗？

SpringBoot JPA不需要@Transactional上的.save（）吗？

Java 2022-01-01 452
Python-读取巨大的.csv文件

Python-读取巨大的.csv文件

python 2022-01-01 493
为什么我将MIME类型的.csv文件作为“ application / octet-stream”获得？

为什么我将MIME类型的.csv文件作为“ application / octet-stream”获得？

其他 2022-01-01 524
Java 8流的.min（）和.max（）：为什么要编译他？

Java 8流的.min（）和.max（）：为什么要编译他？

java 2022-01-01 452

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

撰写回答

推荐问题

从大文件读取JSON对象

从大HTML字符串创建jQuery对象

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大pandas中的假人重构分类变量

在Python中从大文件删除行的最快方法

从大型未排序数组中删除重复项并保持顺序

从大量条目中实现选择框的最佳方法

从大型文档中提取电子邮件子字符串

从大表中删除列

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大型结构化文本文件中提取信息

JSON中的.d是什么意思？

如何从ASP.NET Core中的.json文件读取AppSettings值

从Java中的.p12文件获取PrivateKey对象

如何使用Shell脚本读取包含带有句点字符的键的.properties文件

防止缓存从磁盘加载的UIWebView中的.css文件

如何将Python的.py转换为.exe？

100％CPU时如何提高Redis性能？分片？最快的.Net客户端？

如何使用Spring Boot和Tomcat指定我的.keystore文件？

奥尔森时区的.NET TimeZoneInfo

Linux中典型的./configure有什么作用？

无法从Docker上运行的.net核心应用连接到SQL Server Express

部署新的.war文件时如何清除tomcat的缓存？有配置设置吗？

复选框上的.click和.change有什么区别[重复]

Redis：无法打开用于保存的.rdb：权限被拒绝

控制台应用程序中的.NET全局异常处理程序

jQuery的.hide（）与将CSS设置为显示之间的区别：无

SpringBoot JPA不需要@Transactional上的.save（）吗？

Python-读取巨大的.csv文件

为什么我将MIME类型的.csv文件作为“ application / octet-stream”获得？

Java 8流的.min（）和.max（）：为什么要编译他？

分类汇总

您的鼓励是对我最大的支持