您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 为每个客户查找缺少的datetime值

5b51 2022/1/14 8:21:30 python 字数 3071 阅读 498 来源 www.jb51.cc/python

CustID UsageDate EnergyConsumed 0 17111 2018-01-01 00:00:00 1.095 1 17111 2018-01-01 01:00:00 1.129 2 17111 2018-01-01 02:00:00 1.165 3 171

概述

    CustID  UsageDate               EnergyConsumed
0   17111   2018-01-01 00:00:00     1.095
1   17111   2018-01-01 01:00:00     1.129
2   17111   2018-01-01 02:00:00     1.165
3   17111   2018-01-01 03:00:00     1.833
4   17111   2018-01-01 04:00:00     1.697
5   17111   2018-01-01 05:00:00     1.835
missing data point 1
6   17111   2018-01-01 07:00:00     1.835
7   17112   2018-01-01 00:00:00     1.095
8   17112   2018-01-01 01:00:00     1.129
missing data point 1
9   17112   2018-01-01 03:00:00     1.833
10  17112   2018-01-01 04:00:00     1.697
11  17112   2018-01-01 05:00:00     1.835

对于每个客户,我都有每小时的数据.但是,两者之间缺少一些数据点.我想检查使用日期的最小值和最大值,并在该时间间隔内填写缺少的使用日期(所有值均为每小时),并且EnergyConsumed为零.我以后可以使用ffill或回填来处理这个问题.

并非每个客户的最大UsageDate都是2018-01-31 23:00:00.所以我们只想将系列扩展到每个客户的最大日期.

缺失点1被替换为

17111        2018-01-01 06:00:00     0

缺失点2被替换为

17112        2018-01-01 02:00:00     0

我的主要问题是如何找到每个客户的最小和最大日期,然后生成日期的差距.

我已经尝试按日期和重新采样进行索引,但没有帮助我找到解决方案.

另外,我想知道是否有办法直接找到上述模式中缺少值的customerID.我的数据非常庞大,@ Vaishali提供的解决方案计算量很大.任何输入都会有所帮助!

df['UsageDate'] = pd.to_datetime(df['UsageDate'])

idx = df.groupby('CustID')['UsageDate'].apply(lambda x: pd.Series(index = pd.date_range(x.min(),x.max(),freq = 'H'))).index

df.set_index(['CustID','UsageDate']).reindex(idx).fillna(0).reset_index().rename(columns = {'level_1':'UsageDate'})

    CustID  UsageDate               EnergyConsumed
0   17111   2018-01-01 00:00:00     1.095
1   17111   2018-01-01 01:00:00     1.129
2   17111   2018-01-01 02:00:00     1.165
3   17111   2018-01-01 03:00:00     1.833
4   17111   2018-01-01 04:00:00     1.697
5   17111   2018-01-01 05:00:00     1.835
6   17111   2018-01-01 06:00:00     0.000
7   17111   2018-01-01 07:00:00     1.835
8   17112   2018-01-01 00:00:00     1.095
9   17112   2018-01-01 01:00:00     1.129
10  17112   2018-01-01 02:00:00     0.000
11  17112   2018-01-01 03:00:00     1.833
12  17112   2018-01-01 04:00:00     1.697
13  17112   2018-01-01 05:00:00     1.835

说明:由于Usagedates必须是该CustID的最小和最大日期范围内的所有日期,因此我们按CustID对数据进行分组,并使用date_range创建一系列最小和最大日期.将日期设置为系列的索引而不是值. groupby的结果将是一个多索引,CUSTID为0级,使用日期为1级.我们现在使用此multiindex重新索引原始数据帧.它将使用索引匹配的值,在其余部分分配NaN.最后使用fillna将NaN转换为0.

总结

以上是编程之家为你收集整理的python – 为每个客户查找缺少的datetime值全部内容,希望文章能够帮你解决python – 为每个客户查找缺少的datetime值所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶