Python按时间段分组（带容差）

Group 0: 0-30 DateDiff (with a 30 day extra window if 'Y' is not found) Group 1: 31-60 DateDiff (with a 30 day extra window if 'Y' is not found) Group 2: 61-90 DateDiff (with a 30 day extra window if 'Y' is not found)

df = pd.DataFrame({'ID':[111, 111, 111, 111, 111, 111, 112, 112, 112], 'WorkComplete':['N', 'N', 'Y', 'N', 'N', 'N', 'N', 'Y', 'Y'], 'DaysDiff': [0, 29, 45, 46, 47, 88, 1, 12, 89]})

ID WorkComplete DaysDiff 111 N 0 111 N 29 111 Y 45 111 N 46 111 N 47 111 N 88 123 N 1 123 Y 12 123 Y 89

ID WorkComplete DaysDiff Group 111 N 0 0 111 N 29 0 111 Y 45 0 <---- note here the grouping is 0 to provide extra time 111 N 46 1 <---- back to normal 111 N 47 1 111 N 88 2 123 N 1 0 123 Y 12 0 123 Y 89 2

minQ1 = 0 highQ1 = 30 minQ2 = 31 highQ2 = 60 minQ2 = 61 highQ2 = 90 def Group_df(df): if (minQ1 <= df['DateDiff'] <= highQ1): return '0' elif (minQ1 <= df['DateDiff'] <= highQ1): return '1' elif (minQ2 <= df['DateDiff'] <= highQ2): return '2' df['Group'] = df.apply(Group_df, axis = 1)

1条回答

网友

1楼 · 发布于 2024-10-01 02:32:52

您可以使用np.select作为主要条件
然后，使用mask表示您提到的特定条件s是每组所有{}值的第一个索引位置。然后，我临时将assign{}作为一个新列，这样我就可以对照df.index（索引）检查行，以返回满足条件的行。第二个条件是，如果组号是previos代码行的1：

df['Group'] = np.select([df['DaysDiff'].between(0,30), 
                         df['DaysDiff'].between(31,60), 
                         df['DaysDiff'].between(61,90)],
                         [0,1,2])
s = df[df['WorkComplete'] == 'Y'].groupby('ID')['DaysDiff'].transform('idxmin')
df['Group'] = df['Group'].mask((df.assign(s=s)['s'].eq(df.index)) & (df['Group'].eq(1)), 0)
df
Out[1]: 
    ID WorkComplete  DaysDiff  Group
0  111            N         0      0
1  111            N        29      0
2  111            Y        45      0
3  111            N        46      1
4  111            N        47      1
5  111            N        88      2
6  123            N         1      0
7  123            Y        12      0
8  123            Y        89      2

相关问题更多 >

编程相关推荐

热门问题

热门文章