从大pandas中的假人重构分类变量

In [46]: s = Series(list(‘aaabbbccddefgh’)).astype(‘category’)

In [47]: s
Out[47]: 
0     a
1     a
2     a
3     b
4     b
5     b
6     c
7     c
8     d
9     d
10    e
11    f
12    g
13    h
dtype: category
Categories (8, object): [a < b < c < d < e < f < g < h]

In [48]: df = pd.get_dummies(s)

In [49]: df
Out[49]: 
    a  b  c  d  e  f  g  h
0   1  0  0  0  0  0  0  0
1   1  0  0  0  0  0  0  0
2   1  0  0  0  0  0  0  0
3   0  1  0  0  0  0  0  0
4   0  1  0  0  0  0  0  0
5   0  1  0  0  0  0  0  0
6   0  0  1  0  0  0  0  0
7   0  0  1  0  0  0  0  0
8   0  0  0  1  0  0  0  0
9   0  0  0  1  0  0  0  0
10  0  0  0  0  1  0  0  0
11  0  0  0  0  0  1  0  0
12  0  0  0  0  0  0  1  0
13  0  0  0  0  0  0  0  1

In [50]: x = df.stack()

# I don't think you actually need to specify ALL of the categories here, as by deFinition
# they are in the dummy matrix to start (and hence the column index)
In [51]: Series(pd.Categorical(x[x!=0].index.get_level_values(1)))
Out[51]: 
0     a
1     a
2     a
3     b
4     b
5     b
6     c
7     c
8     d
9     d
10    e
11    f
12    g
13    h
Name: level_1, dtype: category
Categories (8, object): [a < b < c < d < e < f < g < h]

因此，我认为我们需要一个函数来“执行”此操作，因为这似乎是很自然的操作。也许get_categories()，看这里

其他 2022/1/1 18:29:44 有529人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

从大文件读取JSON对象

从大文件读取JSON对象

其他 2022-01-01 522
从大HTML字符串创建jQuery对象

从大HTML字符串创建jQuery对象

JS 2022-01-01 506
从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

其他 2022-01-01 514
从大pandas中的假人重构分类变量

从大pandas中的假人重构分类变量

其他 2022-01-01 529
在Python中从大文件删除行的最快方法

在Python中从大文件删除行的最快方法

python 2022-01-01 518
从大型未排序数组中删除重复项并保持顺序

从大型未排序数组中删除重复项并保持顺序

其他 2022-01-01 519
从大量条目中实现选择框的最佳方法

从大量条目中实现选择框的最佳方法

其他 2022-01-01 473
从大型文档中提取电子邮件子字符串

从大型文档中提取电子邮件子字符串

其他 2022-01-01 518
从大表中删除列

从大表中删除列

其他 2022-01-01 514
从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

其他 2022-01-01 395
从大型结构化文本文件中提取信息

从大型结构化文本文件中提取信息

其他 2022-01-01 531
强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

Node 2022-01-01 1140
java.lang.ClassCastException

java.lang.ClassCastException

java 2022-01-01 1089
Angular.JS：视图共享同一控制器，更改视图时重置模型数据

Angular.JS：视图共享同一控制器，更改视图时重置模型数据

其他 2022-01-01 1046
当用户手动滚动时，jQuery .animate（）停止滚动吗？

当用户手动滚动时，jQuery .animate（）停止滚动吗？

JS 2022-01-01 1045
是否将instanceof视为不良做法？如果是这样，在什么情况下instanceof仍然是可取的？

是否将instanceof视为不良做法？如果是这样，在什么情况下instanceof仍然是可取的？

其他 2022-01-01 967
Django-如何使用South重命名模型字段？

Django-如何使用South重命名模型字段？

Go 2022-01-01 1438
java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

java 2022-01-01 1196
mgo中的Golang Bson排序参数

mgo中的Golang Bson排序参数

Go 2022-01-01 929
如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

其他 2022-01-01 958
pandas.io.json.json_normalize与非常嵌套的json

pandas.io.json.json_normalize与非常嵌套的json

其他 2022-01-01 965
为什么Class.newInstance（）是“evil”？

为什么Class.newInstance（）是“evil”？

其他 2022-01-01 1025
如何在AngularJS的同一元素上嵌套两个指令？

如何在AngularJS的同一元素上嵌套两个指令？

其他 2022-01-01 993
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 984
Golang文件上传：如果文件太大，则关闭连接

Golang文件上传：如果文件太大，则关闭连接

Go 2022-01-01 1395
Hibernate-AnnotationConfiguration已弃用

Hibernate-AnnotationConfiguration已弃用

其他 2022-01-01 993
AngularJS：使用$ http.post传递复杂的json数据

AngularJS：使用$ http.post传递复杂的json数据

其他 2022-01-01 1058
Langford序列实现Haskell或C

Langford序列实现Haskell或C

其他 2022-01-01 994
@OneToOne返回为ManyToOneType

@OneToOne返回为ManyToOneType

dotnet 2022-01-01 1355
服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

Go 2022-01-01 1016
无法在angularjs中调用Object.keys

无法在angularjs中调用Object.keys

其他 2022-01-01 965

从大pandas中的假人重构分类变量

撰写回答

推荐问题

从大文件读取JSON对象

从大HTML字符串创建jQuery对象

从大量的.txt文件及其频率生成Ngram（Unigram，Bigram等）

从大pandas中的假人重构分类变量

在Python中从大文件删除行的最快方法

从大型未排序数组中删除重复项并保持顺序

从大量条目中实现选择框的最佳方法

从大型文档中提取电子邮件子字符串

从大表中删除列

从大表中检索所有记录时，如何避免OOM（内存不足）错误？

从大型结构化文本文件中提取信息

强制JsonConvert.SerializeXmlNode将节点值序列化为Integer或Boolean

java.lang.ClassCastException

Angular.JS：视图共享同一控制器，更改视图时重置模型数据

当用户手动滚动时，jQuery .animate（）停止滚动吗？

是否将instanceof视为不良做法？如果是这样，在什么情况下instanceof仍然是可取的？

Django-如何使用South重命名模型字段？

java.lang.NoClassDefFoundError：javax / persistence / SharedCacheMode

mgo中的Golang Bson排序参数

如何在AngularJS中使用$ scope。$ watch和$ scope。$ apply？

pandas.io.json.json_normalize与非常嵌套的json

为什么Class.newInstance（）是“evil”？

如何在AngularJS的同一元素上嵌套两个指令？

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Golang文件上传：如果文件太大，则关闭连接

Hibernate-AnnotationConfiguration已弃用

AngularJS：使用$ http.post传递复杂的json数据

Langford序列实现Haskell或C

@OneToOne返回为ManyToOneType

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

无法在angularjs中调用Object.keys

分类汇总

您的鼓励是对我最大的支持