根据其他行更新一行的列，如

Time col1 col2 col3 2 a x 10 3 b y 11 1 a x 10 6 c z 12 20 c x 13 23 a y 24 14 c x 13 16 b y 11 ...

Time col1 col2 col3 cumVal 2 a x 10 2 3 b y 11 1 1 a x 10 2 6 c z 12 1 20 c x 13 2 23 a y 24 1 14 c x 13 2 16 b y 11 1 ...

df['cumVal'] = 0 for index, row in df.iterrows(): min1 = row['Time']-10 max1 = row['Time']+10 ndf = df[(df.col1 == row.col1)&(df.col2 == row.col2)& (df.col3 == row.col3)] df.iloc[index]['cumVal'] = len(ndf.query('@min1 <= Time <= @max1'))

2条回答

网友

1楼 · 编辑于 2024-06-25 05:37:48

您可以在“col1”、“col2”和“col3”上使用groupby，在每个组的^{}中，使用^{}作为^{}的ufunc来计算该组的“Time”列中的值之间的所有差异，然后在轴=0上的np.abs小于10和np.sum时，您可以计算每个值在+/-10范围内的值

import numpy as np
df['cumVal'] = (df.groupby(['col1','col2','col3'])['Time']
                  .transform(lambda x: (np.abs(np.subtract.outer(x, x))<=10).sum(0)))
print (df)
   Time col1 col2  col3  cumVal
0   2.0    a    x  10.0     2.0
1   3.0    b    y  11.0     1.0
2   1.0    a    x  10.0     2.0
3   6.0    c    z  12.0     1.0
4  20.0    c    x  13.0     2.0
5  23.0    a    y  24.0     1.0
6  14.0    c    x  13.0     2.0
7  16.0    b    y  11.0     1.0

网友

2楼 · 编辑于 2024-06-25 05:37:48

它应该提供更好的性能：

df['cumVal'] = 0
for index, row in df.iterrows():
   min1 = row['Time']-10
   max1 = row['Time']+10
   ndf = df[(df.Time>min1)&(df.Time<max1)&(df.col1 == row.col1)&(df.col2 == row.col2)& (df.col3 == 
   row.col3)]
   df.iloc[index]['cumVal'] = len(ndf)

相关问题更多 >

编程相关推荐

热门问题

热门文章