Pandas的分层样品

我不确定您是否是这个意思：

strats = []
for k in range(11):
    y_val = k*0.1
    dummy_df = your_df[your_df['Y'] == y_val]
    stats.append( dummy_df.sample(200) )

这将使虚拟数据帧仅包含所需的Y值，然后取样200。

确定，因此您需要不同的块以具有相同的结构。我想这有点难，这是我的做法：

首先，我将得到如下所示的直方图X1：

hist, edges = np.histogram(your_df['X1'], bins=np.linespace(min_x, max_x, nbins))

我们现在有了一个带有nbins垃圾箱的直方图。

现在的策略是根据行的值绘制一定数量的行X1。我们将从具有更多观察结果的容器中获取更多信息，而从具有更少观察值的容器中获取更少信息，从而X保留的结构。

特别是，每个垃圾箱的相对贡献应为：

rel = [float(i) / sum(hist) for i in hist]

这会像 [0.1, 0.2, 0.1, 0.3, 0.3]

如果需要200个样本，则需要绘制：

draws_in_bin = [int(i*200) for i in rel]

现在我们知道从每个箱中抽取多少个观测值：

strats = []
for k in range(11):
        y_val = k*0.1

        #get a dataframe for every value of Y
        dummy_df = your_df[your_df['Y'] == y_val]

        bin_strat = []
        for left_edge, right_edge, n_draws in zip(edges[:-1], edges[1:], draws_in_bin):

             bin_df = dummy_df[ (dummy_df['X1']> left_edge) 
                              & (dummy_df['X1']< right_edge) ]

             bin_strat.append(bin_df.sample(n_draws))
             # this takes the right number of draws out 
             # of the X1 bin where we currently are
             # Note that every element of bin_strat is a dataframe
             # with a number of entries that corresponds to the 
             # structure of draws_in_bin
        #
        #concatenate the dataframes for every bin and append to the list
        strats.append( pd.concat(bin_strat) )

其他 2022/1/1 18:36:28 有414人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Jenkins XmlParser报告未找到根节点属性的此类字段

其他 2022-01-01 953
Java Import package.* vs import package.SpecificType

Java Import package.* vs import package.SpecificType

java 2022-01-01 1138
使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

其他 2022-01-01 1242
pandas.io.json.json_normalize与非常嵌套的json

pandas.io.json.json_normalize与非常嵌套的json

其他 2022-01-01 965
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 983
Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

java 2022-01-01 960
Hibernate工具可以生成JPA POJO吗？

Hibernate工具可以生成JPA POJO吗？

其他 2022-01-01 1083
怎么把PascalCase转换成pascal_case？

怎么把PascalCase转换成pascal_case？

其他 2022-01-01 843
如何在Electron.Atom \ WebPack应用程序中使用FS模块？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

其他 2022-01-01 984
在本地xampp / apache服务器上设置SSL

在本地xampp / apache服务器上设置SSL

其他 2022-01-01 1075
在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

其他 2022-01-01 1042
Webpack开发服务器React Content Security Policy错误

Webpack开发服务器React Content Security Policy错误

其他 2022-01-01 802
Spring Data JPA分离实体

Spring Data JPA分离实体

Java 2022-01-01 862
“ -sh：executable_path：未找到”是什么意思

“ -sh：executable_path：未找到”是什么意思

其他 2022-01-01 916
Primefaces DataTable + JPA /休眠分页

Primefaces DataTable + JPA /休眠分页

其他 2022-01-01 885
在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

其他 2022-01-01 988
Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

Java 2022-01-01 966
JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

MySQL 2022-01-01 853
apache mysql-3306上的“数据包出现故障”

apache mysql-3306上的“数据包出现故障”

MySQL 2022-01-01 782
Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

MySQL 2022-01-01 1034

Pandas的分层样品

撰写回答

推荐问题

Jenkins XmlParser报告未找到根节点属性的此类字段

Java Import package.* vs import package.SpecificType

使用SHA-256和MGF1Padding分解RSA / ECB / OAEP

pandas.io.json.json_normalize与非常嵌套的json

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

Java SE 6中的JPA / Hibernate，用于数据访问的最佳实践

Hibernate工具可以生成JPA POJO吗？

怎么把PascalCase转换成pascal_case？

如何在Electron.Atom \ WebPack应用程序中使用FS模块？

在本地xampp / apache服务器上设置SSL

在onPause，onStop和onDestroy方法中调用超类方法的正确顺序是什么？为什么？

Webpack开发服务器React Content Security Policy错误

Spring Data JPA分离实体

“ -sh：executable_path：未找到”是什么意思

Primefaces DataTable + JPA /休眠分页

在具有Docker容器的独立集群上执行Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Spring，JPA和Hibernate-如何在没有并发问题的情况下增加计数器

JPA：如何将字符串保留到数据库字段中，键入MYSQL Text

apache mysql-3306上的“数据包出现故障”

Hibernate JPA，MySQL和TinyInt（1）用于布尔值而不是bit或char

分类汇总

您的鼓励是对我最大的支持