将数据帧中的上下样本多类训练示例（行）设置为指定值

animal class 0 dog1 0 1 dog2 0 2 dog3 0 3 dog4 0 4 dog5 0 5 dog6 0 6 dog7 0 7 cat1 1 8 cat2 1 9 cat3 1 10 fish1 2

animal class 0 dog2 0 1 dog3 0 2 dog5 0 3 dog6 0 4 dog7 0 5 cat1 1 6 cat2 1 7 cat3 1 8 cat2 1 9 fish1 2 10 fish1 2 11 fish1 2

1条回答

网友
1楼 · 发布于 2024-09-30 03:24:11

由于^{}不允许n大于组大小，如果replace不是True，但具有replace be True，则意味着即使在本可以进行下采样的组中也会发生替换
相反，让我们尝试使用^{}+^{}，并有条件地为每个组启用replace。创建一个字典，将每个类映射到样本数，并使用条件逻辑确定是否替换：
sample_amounts = {0: 5, 1: 4, 2: 3} s = ( df.groupby('class').apply(lambda g: g.sample( # lookup number of samples to take n=sample_amounts[g.name], # enable replacement if len is less than number of samples expected replace=len(g) < sample_amounts[g.name] )) )
s：
animal class class 0 5 dog6 0 3 dog4 0 6 dog7 0 4 dog5 0 2 dog3 0 1 9 cat3 1 8 cat2 1 7 cat1 1 8 cat2 1 2 10 fish1 2 10 fish1 2 10 fish1 2
^{}可用于保留初始索引（如果重要）：
sample_amounts = {0: 5, 1: 4, 2: 3} s = ( df.groupby('class').apply(lambda g: g.sample( n=sample_amounts[g.name], replace=len(g) < sample_amounts[g.name] )) .droplevel(0) )
s：
animal class 6 dog7 0 3 dog4 0 2 dog3 0 4 dog5 0 1 dog2 0 7 cat1 1 8 cat2 1 8 cat2 1 8 cat2 1 10 fish1 2 10 fish1 2 10 fish1 2
如果索引不重要，可以使用^a5}：
sample_amounts = {0: 5, 1: 4, 2: 3} s = ( df.groupby('class').apply(lambda g: g.sample( n=sample_amounts[g.name], replace=len(g) < sample_amounts[g.name] )) .reset_index(drop=True) )
s：
animal class 0 dog1 0 1 dog2 0 2 dog4 0 3 dog5 0 4 dog3 0 5 cat3 1 6 cat2 1 7 cat1 1 8 cat3 1 9 fish1 2 10 fish1 2 11 fish1 2

相关问题更多 >

编程相关推荐

热门问题

热门文章