您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

保留TFIDF结果以使用Scikit for Python预测新内容

保留TFIDF结果以使用Scikit for Python预测新内容

我通过保存成功保存了功能列表vectorizer.vocabulary_,并通过CountVectorizer(decode_error="replace",vocabulary=vectorizer.vocabulary_)

以下代码

corpus = np.array(["aaa bbb ccc", "aaa bbb ddd"])
vectorizer = CountVectorizer(decode_error="replace")
vec_train = vectorizer.fit_transform(corpus)
#Save vectorizer.vocabulary_
pickle.dump(vectorizer.vocabulary_,open("feature.pkl","wb"))

#Load it later
transformer = TfidfTransformer()
loaded_vec = CountVectorizer(decode_error="replace",vocabulary=pickle.load(open("feature.pkl", "rb")))
tfidf = transformer.fit_transform(loaded_vec.fit_transform(np.array(["aaa ccc eee"])))

这样可行。tfidf具有与训练数据相同的特征长度。

python 2022/1/1 18:44:22 有313人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶