您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 在pandas数据帧上同时操作groupby和resample?

5b51 2022/1/14 8:21:51 python 字数 2907 阅读 517 来源 www.jb51.cc/python

我的pandas数据框由一个分类列JOB_TITLE,一个数字列BASE_SALARY和一个日期时间索引JOIN_DATE组成.我想对分类和下采样日期时间组进行聚合,如下所示:# Resampled at frequency of start data of every 5 years mean_agg = (df .groupby('J

概述

我的pandas数据框由一个分类列JOB_TITLE,一个数字列BASE_SALARY和一个日期时间索引JOIN_DATE组成.我想对分类和下采样日期时间组进行聚合,如下所示:

# Resampled at frequency of start data of every 5 years
mean_agg = (df
          .groupby('JOB_TITLE')
          .resample('5AS')['BASE_SALARY']
          .mean())

不幸的是,由于groupby操作在重采样之前发生,因此对每个JOB_TITLE组独立地执行重采样操作.这导致以下系列:

| JOB_TITLE         | JOIN_DATE  |       |
|-------------------|------------|-------|
| Data Scientist    | 2004-01-01 | 60000 |
|                   | 2009-01-01 | 75000 |
|                   | 2014-01-01 | 90000 |
|                   |            |       |
| Software Engineer | 2001-01-01 | 70000 |
|                   | 2006-01-01 | 85000 |
|                   | 2011-01-01 | 90000 |
|                   | 2016-01-01 | 85000 |

正如您所看到的,Data Scientist组和软件工程师在JOIN_DATE级别的索引未对齐.当您为级别JOB_TITLE应用unstack时,这会产生一个问题,如下所示:

mean_agg.unstack('JOB_TITLE')

这导致以下数据帧:

| JOB_TITLE  | Data Scientist | Software Engineer |
|------------|----------------|-------------------|
| JOIN_DATE  |                |                   |
| 2001-01-01 | NaN            | 70000             |
| 2004-01-01 | 60000          | NaN               |
| 2006-01-01 | NaN            | 85000             |
| 2009-01-01 | 75000          | NaN               |
| 2011-01-01 | NaN            | 70000             |
| 2014-01-01 | 90000          | NaN               |
| 2016-01-01 | NaN            | 85000             |

如何避免groupby和resample的顺序操作,而是执行同步操作?谢谢!

mean_agg = (df.groupby(['JOB_TITLE',pd.Grouper(freq='5AS')])['BASE_SALARY']
              .mean())

mean_agg.unstack('JOB_TITLE')

我们尝试使用pd.TimeGrouper,而不是使用resample

mean_agg = (df
      .groupby(['JOB_TITLE',pd.TimeGrouper(freq='5AS')])['BASE_SALARY']
      .mean())

mean_agg.unstack('JOB_TITLE')

TimeGrouper对齐分组时间范围的区间.

总结

以上是编程之家为你收集整理的python – 在pandas数据帧上同时操作groupby和resample?全部内容,希望文章能够帮你解决python – 在pandas数据帧上同时操作groupby和resample?所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶