您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 如何在groupand中使用.loc和pandas中的两个条件

5b51 2022/1/14 8:21:36 python 字数 4357 阅读 506 来源 www.jb51.cc/python

我问了一个类似的问题here,但我想扩展这个问题,因为我被要求做一些不同的地方,我不能使用.duplicates()我有一个按'Key'分组的df.我想标记排放日期与排放日期匹配的组内的任何行和排放日期之间的排,具有排放日期的行具有5-12范围内的num1值.df = pd.DataFrame({'Key': ['10003', '10003', '100

概述

我问了一个类似的问题here,但我想扩展这个问题,因为我被要求做一些不同的地方,我不能使用.duplicates()

我有一个按’Key’分组的df.我想标记排放日期与排放日期匹配的组内的任何行和排放日期之间的排,具有排放日期的行具有5-12范围内的num1值.

df =  pd.DataFrame({'Key': ['10003','10003','10034','10034'],'Num1': [12,13,12,15,12],'Num2': [121,122,124,125,126,127,128],'admit': [20120506,20120508,20121010,20121110,20120520,20120520],'discharge': [20120508,20120510,20121012,20121016,20121023,20121111,20120520]})
df['admit'] = pd.to_datetime(df['admit'],format='%Y%m%d')
df['discharge'] = pd.to_datetime(df['discharge'],format='%Y%m%d')

最初的df

    Key     Num1    Num2    admit       discharge
0   10003   12      121     2012-05-06  2012-05-08
1   10003   13      122     2012-05-08  2012-05-10
2   10003   13      122     2012-10-10  2012-10-12
3   10003   13      124     2012-10-10  2012-10-16
4   10003   12      125     2012-10-10  2012-10-23
5   10003   13      126     2012-11-10  2012-11-11
6   10034   15      127     2012-05-20  2012-05-20
7   10034   12      128     2012-05-20  2012-05-20

最后的df

    Key     Num1    Num2    admit       discharge   flag
0   10003   12      121     2012-05-06  2012-05-08  1
1   10003   13      122     2012-05-08  2012-05-10  1
2   10003   13      122     2012-10-10  2012-10-12  0
3   10003   13      124     2012-10-10  2012-10-16  0
4   10003   12      125     2012-10-10  2012-10-23  0
5   10003   13      126     2012-11-10  2012-11-11  0
6   10034   15      127     2012-05-20  2012-05-20  1
7   10034   12      128     2012-05-20  2012-05-20  1

我试图使用filter()但我无法弄清楚如何将任何()应用于放电日期.我的逻辑是选择组中的第一个录取日期,然后在每个放电日期之间检查该日期,并且一旦匹配,则检查具有相同放电日期的行是否具有Num1中的值,范围为5-12 .

num1_range = [5,6,7,8,9,10,11,12]
df.loc[df.groupby(['Key']).filter(lambda x : (x['admit'] == x['discharge'].any())&(x['Num1'].isin(num1_range).any())),'flag']=1

我收到了一个错误

ValueError: cannot set a Timestamp with a non-timestamp

>承认日期等于组内的任何出院日期(Key).
>如果Num1在5到12之间,则排放日期等于组内的任何允许日期.

以下逻辑产生的结果与您想要的输出一致.

d1 = df.groupby('Key')['admit'].apply(set).to_dict()
d2 = df.groupby('Key')['discharge'].apply(set).to_dict()

def flagger(row):
    match1,match2 = row['discharge'] in d1[row['Key']],row['admit'] in d2[row['Key']]
    return match2 or (match1 and (row['Num1'] in range(5,13)))

df['flag'] = df.apply(flagger,axis=1).astype(int)

结果

     Key  Num1  Num2      admit  discharge  flag
0  10003    12   121 2012-05-06 2012-05-08     1
1  10003    13   122 2012-05-08 2012-05-10     1
2  10003    13   122 2012-10-10 2012-10-12     0
3  10003    13   124 2012-10-10 2012-10-16     0
4  10003    12   125 2012-10-10 2012-10-23     0
5  10003    13   126 2012-11-10 2012-11-11     0
6  10034    15   127 2012-05-20 2012-05-20     1
7  10034    12   128 2012-05-20 2012-05-20     1

说明

>创建2个字典映射键 – >录取日期和密钥 – >分别出院日期.
>使用这两个词典,使用pd.DataFrame.apply应用行指定的条件.

总结

以上是编程之家为你收集整理的python – 如何在groupand中使用.loc和pandas中的两个条件全部内容,希望文章能够帮你解决python – 如何在groupand中使用.loc和pandas中的两个条件所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶