在数据框中找到最小值，并在新列上添加标签

In [1]: df = pd.DataFrame({'PersonID': [1, 1, 1, 2, 2, 2, 3, 3, 3], 'Name': ["Jan", "Jan", "Jan", "Don", "Don", "Don", "Joe", "Joe", "Joe"], 'Label': ["REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL"], 'RuleID': [55, 55, 55, 3, 3, 3, 10, 10, 10], 'RuleNumber': [3, 4, 5, 1, 2, 3, 234, 567, 999]})

In [2]: df Out[2]: PersonID Name Label RuleID RuleNumber 0 1 Jan REL 55 3 1 1 Jan REL 55 4 2 1 Jan REL 55 5 3 2 Don REL 3 1 4 2 Don REL 3 2 5 2 Don REL 3 3 6 3 Joe REL 10 234 7 3 Joe REL 10 567 8 3 Joe REL 10 999

In [3]: df Out[3]: PersonID Name Label RuleID RuleNumber 0 1 Jan MAIN 55 3 1 1 Jan REL 55 4 2 1 Jan REL 55 5 3 2 Don MAIN 3 1 4 2 Don REL 3 2 5 2 Don REL 3 3 6 3 Joe MAIN 10 234 7 3 Joe REL 10 567 8 3 Joe REL 10 999

3条回答

网友

1楼 · 编辑于 2024-09-29 22:00:24

import pandas as pd

df = pd.DataFrame({'PersonID': [1, 1, 1, 2, 2, 2, 3, 3, 3],
'Name': ["Jan", "Jan", "Jan", "Don", "Don", "Don", "Joe", "Joe", "Joe"],
'Label': ["REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL", "REL"],
'RuleID': [55, 55, 55, 3, 3, 3, 10, 10, 10],
'RuleNumber': [3, 4, 5, 1, 2, 3, 234, 567, 999]})

df.loc[df.groupby('Name')['RuleNumber'].idxmin()[:], 'Label'] = 'MAIN'

网友

2楼 · 编辑于 2024-09-29 22:00:24

似乎您可以按分组的idxmin进行筛选，而不考虑排序顺序，并基于此更新RuleNumber。您可以按如下方式使用loc、np.where、mask或where：

df.loc[df.groupby(['PersonID', 'Name', 'RuleID'])['RuleNumber'].idxmin(), 'Label'] = 'MAIN'

或者在您尝试时使用np.where：

df['Label'] = (np.where((df.index == df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN', 'REL'))
df
Out[1]: 
   PersonID Name Label  RuleID  RuleNumber
0         1  Jan  MAIN      55           3
1         1  Jan   REL      55           4
2         1  Jan   REL      55           5
3         2  Don  MAIN       3           1
4         2  Don   REL       3           2
5         2  Don   REL       3           3
6         3  Joe  MAIN      10         234
7         3  Joe   REL      10         567
8         3  Joe   REL      10         999

使用mask或其逆where也可以：

df['Label'] = (df['Label'].mask((df.index == df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN'))

或

df['Label'] = (df['Label'].where((df.index != df.groupby(['PersonID', 'Name', 'RuleID'])
                         ['RuleNumber'].transform('idxmin')), 'MAIN'))

网友

3楼 · 编辑于 2024-09-29 22:00:24

在PersonID上使用duplicated：

df.loc[~df['PersonID'].duplicated(),'Label'] = 'MAIN'
print(df)

输出：

   PersonID Name Label  RuleID  RuleNumber
0         1  Jan  MAIN      55           3
1         1  Jan   REL      55           4
2         1  Jan   REL      55           5
3         2  Don  MAIN       3           1
4         2  Don   REL       3           2
5         2  Don   REL       3           3
6         3  Joe  MAIN      10         234
7         3  Joe   REL      10         567
8         3  Joe   REL      10         999

相关问题更多 >

编程相关推荐

热门问题

热门文章