从pandas DataFram中删除少于K个连续的nan

a 0 36.45 1 35.45 2 NaN 3 NaN 4 NaN 5 37.21 6 35.63 7 36.45 8 34.65 9 31.45 10 NaN 11 NaN 12 36.71 13 35.55 14 NaN 15 NaN 16 NaN 17 NaN 18 37.71

2条回答

网友

1楼 · 编辑于 2024-10-06 12:15:07

您可以创建一个指示符列来计算连续的nan。在

k = 3
(
df.groupby(pd.notna(df.a).cumsum())
.apply(lambda x: x.dropna() if pd.isna(x.a).sum() <= k else x)
.reset_index(drop=True)
)

Out[375]: 
        a
0   36.45
1   35.45
2   37.21
3   35.63
4   36.45
5   34.65
6   31.45
7   36.71
8   35.55
9     NaN
10    NaN
11    NaN
12    NaN
13  37.71

网友

2楼 · 编辑于 2024-10-06 12:15:07

有几种方法，但我是这样做的：

使用一个简单的cumsum技巧确定一组连续的数字
使用groupby+transform来确定每组的大小
确定阈值内的NAN组
用布尔索引过滤掉它们。在

k = 3 
i = df.a.isnull()
m = ~(df.groupby(i.ne(i.shift()).cumsum().values).a.transform('size').le(k) & i)

df[m]

a
0   36.45
1   35.45
5   37.21
6   35.63
7   36.45
8   34.65
9   31.45
12  36.71
13  35.55
14    NaN
15    NaN
16    NaN
17    NaN
18  37.71

如果需要单调递增的整数索引，可以在末尾执行df = df[m]; df.reset_index(drop=True)步骤。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

从pandas DataFram中删除少于K个连续的nan

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >