您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

复制训练示例以处理pandas数据框中的类不平衡

复制训练示例以处理pandas数据框中的类不平衡

您可以找到一个小组的最大人数

max_size = frame['class'].value_counts().max()

在您的示例中,该值等于8。对于每个组,您都可以使用替换max_size - len(group_size)元素进行采样。这样,如果将它们连接到原始DataFrame,它们的大小将相同,并且将保留原始行。

lst = [frame]
for class_index, group in frame.groupby('class'):
    lst.append(group.sample(max_size-len(group), replace=True))
frame_new = pd.concat(lst)

您可以使用它max_size-len(group),也可以添加一些噪音,因为这会使所有组的大小相等。

其他 2022/1/1 18:35:25 有244人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶