如何过滤Pandas中的分组

dframe = pd.DataFrame({'k1': ['X','X','Y','Y','Z','Z'], ...: 'k2': ['P1','P2','P3','P4','P5','P6'], ...: 'dataset1': np.random.randn(6)}) ...:

1条回答

网友

1楼 · 发布于 2024-09-27 20:19:08

示例（将P6更改为P5）：

np.random.seed(45)
dframe = pd.DataFrame({'k1': ['X','X','Y','Y','Z','Z'],
                         'k2': ['P1','P2','P3','P4','P5','P5'],
                            'dataset1': np.random.randn(6)})

print (dframe)
   dataset1 k1  k2
0  0.026375  X  P1
1  0.260322  X  P2
2 -0.395146  Y  P3
3 -0.204301  Y  P4
4 -1.271633  Z  P5
5 -2.596879  Z  P5

首先通过^{}和^{}创建新列：

dframe['meank1'] = dframe.groupby('k1').transform('mean')
print (dframe)
   dataset1 k1  k2    meank1
0  0.026375  X  P1  0.143348
1  0.260322  X  P2  0.143348
2 -0.395146  Y  P3 -0.299723
3 -0.204301  Y  P4 -0.299723
4 -1.271633  Z  P5 -1.934256
5 -2.596879  Z  P5 -1.934256

然后通过^{}mean和^{}进行聚合，也有必要在k1列中添加k1列，以避免相同的k2在另一个k1中输出错误。你知道吗

dframe = dframe.groupby(['k1','k2']).agg({'dataset1':'mean', 'meank1':'first'})
print (dframe)
         meank1  dataset1
k1 k2                    
X  P1  0.143348  0.026375
   P2  0.143348  0.260322
Y  P3 -0.299723 -0.395146
   P4 -0.299723 -0.204301
Z  P5 -1.934256 -1.934256

上次按^{}或^{}筛选：

dframe = dframe.loc[dframe['meank1'] > dframe['dataset1'], ['dataset1']]
#alternative sol
#dframe = dframe.query('meank1 > dataset1')[['dataset1']]
print (dframe)
       dataset1
k1 k2          
X  P1  0.026375
Y  P3 -0.395146

如果要删除第一级MultiIndex添加^{}：

dframe = dframe.reset_index(level=0, drop=True)
print (dframe)
    dataset1
k2          
P1  0.026375
P3 -0.395146

对于索引中的列，请使用：

dframe = dframe.reset_index(level=0, drop=True).reset_index()
print (dframe)
   k2  dataset1
0  P1  0.026375
1  P3 -0.395146

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何过滤Pandas中的分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >