NaN最长批次的返回索引

df = pd.DataFrame({'col1':[1, 2, np.nan, np.nan, np.nan, np.nan, 2, 2, np.nan, np.nan, np.nan], 'col2':[9, 7, np.nan, np.nan, np.nan, np.nan, 0, np.nan, np.nan, np.nan, np.nan], 'col3':[11, 12, 13, np.nan, 1, 2, 3, np.nan, 1, 2, 3]})

1条回答

网友

1楼 · 发布于 2024-10-01 10:12:17

在给定选定列的情况下，按行计数以查看哪些行都是NAs：

rowwise_tally = df[['col1','col2']].isna().apply(all,axis=1)

0     False
1     False
2      True
3      True
4      True
5      True
6     False
7     False
8      True
9      True
10     True

现在，您可以将此运行分组：

grp = rowwise_tally.diff().cumsum().fillna(0)
0     0.0
1     0.0
2     1.0
3     1.0
4     1.0
5     1.0
6     2.0
7     2.0
8     3.0
9     3.0
10    3.0

然后计算每个组中的nas数量，并获得开始和结束：

na_counts = rowwise_tally.groupby(grp).sum()
pos = pd.Series(np.arange(len(df))).groupby(grp).agg([np.min, np.max])
pos[na_counts>=3].to_numpy()

array([[ 2,  5],
       [ 8, 10]])

也许有更好的方法来获得这个职位，而不是像我那样使用pd.Series。现在，将其包装成一个函数：

def fun(data,cols,minlen):
    rowwise_tally = data[cols].isna().apply(all,axis=1)
    grp = rowwise_tally.diff().cumsum().fillna(0)
    na_counts = rowwise_tally.groupby(grp).sum()
    pos = pd.Series(np.arange(len(data))).groupby(grp).agg([np.min, np.max])
    return pos[na_counts>=minlen].to_numpy()

fun(df,['col1','col2'],3)

相关问题更多 >

编程相关推荐

热门问题

热门文章

NaN最长批次的返回索引

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >