如何在sklearn中编码分类变量?
建议使用DictVectorizer来生成分类变量的单编码。您可以使用sparse参数创建稀疏的CSR矩阵,而不创建密集的numpy数组。我通常不关心多重共线性,也没有注意到我倾向于使用的方法(即LinearSVC,SGDClassifier,基于树的方法)存在问题。
sparse
修补DictVectorizer以便为每个分类功能删除一列不是问题- 您只需DictVectorizer.vocabulary在fit方法末尾删除一个术语即可。(随时欢迎提出要求!)
DictVectorizer.vocabulary
fit
你尚未登录,登录后可以
和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进,让解决方法与时俱进
联系我
602392714
清零编程群