概述
从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率:
tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english')
其中有内置停用词功能,我认为只适用于英语.我怎么能用这个我自己的停用词列表呢?
stop_words = frozenset(["word1","word2","word3"])
总结
以上是编程之家为你收集整理的如何为sklearn CountVectorizer设置自定义停用词?全部内容,希望文章能够帮你解决如何为sklearn CountVectorizer设置自定义停用词?所遇到的程序开发问题。
如果您也喜欢它,动动您的小指点个赞吧