如何为sklearn CountVectorizer设置自定义停用词？

5b51 2022/1/14 8:23:17 python 字数 800 阅读 580 来源 www.jb51.cc/python

我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation). 从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率： tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features,

概述

从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率：

tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english')

其中有内置停用词功能,我认为只适用于英语.我怎么能用这个我自己的停用词列表呢？

stop_words = frozenset(["word1","word2","word3"])

总结

以上是编程之家为你收集整理的如何为sklearn CountVectorizer设置自定义停用词？全部内容，希望文章能够帮你解决如何为sklearn CountVectorizer设置自定义停用词？所遇到的程序开发问题。

如果您也喜欢它,动动您的小指点个赞吧

除非注明，文章均由 laddyq.com 整理发布，欢迎转载。

转载请注明：
链接：http://laddyq.com
来源：laddyq.com
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

如何为sklearn CountVectorizer设置自定义停用词？

概述

总结

分类汇总

您的鼓励是对我最大的支持