如何基于给定条件/python删除*some*行

1条回答

网友

1楼 · 发布于 2024-10-01 07:40:00

一种解决方案是定义每个共病要保留多少行，然后groupby+sample选择该大小的随机子集

我添加了一个小检查，以防指定的行数大于该'CM'组的数据帧中存在的唯一行数。在本例中，它只返回所有行

import pandas as pd
import numpy as np
np.random.seed(410112)

df = pd.DataFrame({'id': range(20), 'CM': np.random.choice([0,1,2,3,4], 20)})
# Keys is comorbidity index, value is # of rows to keep 
d = {0: 1, 1: 3, 2: 2, 3: 20, 4: 2}

l = []
for idx, gp in df.groupby('CM'):
    try:
        gp = gp.sample(n=d[idx], replace=False)
    # If try to subsample more people than exist, do nothing
    except ValueError:
        pass 
    l.append(gp)
    
df1 = pd.concat(l)

另一种类似但不需要重建整个数据帧（可能更快）的替代方法是再次指定要保留的行数的字典d，并使用sample(frac=1)洗牌数据帧，然后groupby+cumcount保留随机的行子集

# Keys is comorbidity index, value is # of rows to keep 
d = {0: 1, 1: 3, 2: 2, 3: 20, 4: 2}

mask = df.sample(frac=1).groupby('CM', sort=False).cumcount().lt(df['CM'].map(d))
df1 = df[mask]

# Different subset of rows but still 1 row with CM0, 3 with CM1, ...

    id  CM
9    9   0
5    5   1
15  15   1
17  17   1
6    6   2
7    7   2
1    1   3
4    4   3
10  10   3
0    0   4
12  12   4

如何基于给定条件/python删除some行

相关问题更多 >

编程相关推荐

热门问题

热门文章

相关问题 更多 >

编程相关推荐

热门问题

热门文章

如何基于给定条件/python删除some行

相关问题更多 >