sklearn：如何加快矢量化器（例如Tfidfvectorizer）的速度

毫不奇怪，NLTK的运行速度很慢：

>>> tfidf = stemmedTfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 4.89 s per loop
>>> tfidf = TfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 415 ms per loop

您可以使用更智能的snowball 提取器实现，例如PyStemmer来加快速度：

>>> import stemmer
>>> english_stemmer = stemmer.stemmer('en')
>>> class stemmedTfidfVectorizer(TfidfVectorizer):
...     def build_analyzer(self):
...         analyzer = super(TfidfVectorizer, self).build_analyzer()
...         return lambda doc: english_stemmer.stemWords(analyzer(doc))
...     
>>> tfidf = stemmedTfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 650 ms per loop

NLTK是一个教学工具包。它的设计速度很慢，因为它针对可读性进行了优化。

其他 2022/1/1 18:31:34 有631人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

在服务器上运行selenium浏览器（Flask / Python / Heroku）

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Python 2022-01-01 1260
Langford序列实现Haskell或C

Langford序列实现Haskell或C

其他 2022-01-01 993
Swift-使用downloadTaskWithURL下载视频

Swift-使用downloadTaskWithURL下载视频

Swift 2022-01-01 818
AWS Lambda错误：“找不到模块'/ var / task / index'”

AWS Lambda错误：“找不到模块'/ var / task / index'”

其他 2022-01-01 648
如何使用Windows Schedule Task运行PHP脚本？

如何使用Windows Schedule Task运行PHP脚本？

php 2022-01-01 687
flask-login：无法理解其工作原理

flask-login：无法理解其工作原理

Python 2022-01-01 680
如何在Lambda上使用TimerTask？

如何在Lambda上使用TimerTask？

其他 2022-01-01 631
如何在现有的dockerfile中运行Flask应用程序？我如何让flask运行其他应用程序？

如何在现有的dockerfile中运行Flask应用程序？我如何让flask运行其他应用程序？

Python 2022-01-01 823
等待与task.Result相同的已完成任务？

等待与task.Result相同的已完成任务？

其他 2022-01-01 669
获取相对于已执行flask应用程序的路径

获取相对于已执行flask应用程序的路径

Python 2022-01-01 882
SpriteKit模板中GameScene.swift和GameScene.sks文件之间的关系是什么

SpriteKit模板中GameScene.swift和GameScene.sks文件之间的关系是什么

Swift 2022-01-01 755
Parallel.ForEach与Task.Factory.StartNew

Parallel.ForEach与Task.Factory.StartNew

其他 2022-01-01 624
使用Swift将NSTask实时输出到NSTextView

使用Swift将NSTask实时输出到NSTextView

Swift 2022-01-01 718
带有TaskExecutor示例的Spring线程？

带有TaskExecutor示例的Spring线程？

Java 2022-01-01 695
在使用Flask的python中，如何写出要下载的对象？

在使用Flask的python中，如何写出要下载的对象？

Python 2022-01-01 700
创建一个静态的Haskell Linux可执行文件

创建一个静态的Haskell Linux可执行文件

其他 2022-01-01 610
使用python / flask中的twitter引导CSS更改链接的活动类

使用python / flask中的twitter引导CSS更改链接的活动类

Python 2022-01-01 637
在Docker上自动重新加载Flask服务器

在Docker上自动重新加载Flask服务器

Python 2022-01-01 617
将Swift 2.3转换为Swift 3.0-错误，无法使用类型为参数的列表调用'dataTask'

将Swift 2.3转换为Swift 3.0-错误，无法使用类型为参数的列表调用'dataTask'

Swift 2022-01-01 620
无法在AsyncTask内未为ProgressDialog调用Looper.prepare（）的线程内创建处理程序

无法在AsyncTask内未为ProgressDialog调用Looper.prepare（）的线程内创建处理程序

其他 2022-01-01 650

sklearn：如何加快矢量化器（例如Tfidfvectorizer）的速度

撰写回答

推荐问题

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Langford序列实现Haskell或C

Swift-使用downloadTaskWithURL下载视频

AWS Lambda错误：“找不到模块'/ var / task / index'”

如何使用Windows Schedule Task运行PHP脚本？

flask-login：无法理解其工作原理

如何在Lambda上使用TimerTask？

如何在现有的dockerfile中运行Flask应用程序？我如何让flask运行其他应用程序？

等待与task.Result相同的已完成任务？

获取相对于已执行flask应用程序的路径

SpriteKit模板中GameScene.swift和GameScene.sks文件之间的关系是什么

Parallel.ForEach与Task.Factory.StartNew

使用Swift将NSTask实时输出到NSTextView

带有TaskExecutor示例的Spring线程？

在使用Flask的python中，如何写出要下载的对象？

创建一个静态的Haskell Linux可执行文件

使用python / flask中的twitter引导CSS更改链接的活动类

在Docker上自动重新加载Flask服务器

将Swift 2.3转换为Swift 3.0-错误，无法使用类型为参数的列表调用'dataTask'

无法在AsyncTask内未为ProgressDialog调用Looper.prepare（）的线程内创建处理程序

分类汇总

您的鼓励是对我最大的支持