按此或th分组

In [52]: %paste pd.DataFrame({'name':list('aabbcceee'), 'addr':list('mmnnjjkkk'), 'apples':apples}).groupby('name').apples.sum() ## -- End pasted text -- Out[52]: name a 36 b 28 c 35 e 38 Name: apples, dtype: int32

2条回答

网友
1楼 · 编辑于 2024-09-27 21:35:12

如果我理解正确，您可以创建从地址到名称的映射。然后用此映射覆盖名称，并按正常方式执行GroupBy：
s = df.drop_duplicates('addr').set_index('addr')['name'] df['name'] = df['addr'].map(s) res = df.groupby('name', as_index=False)['apples'].sum() print(res) name apples 0 a 36 1 b 28 2 c 35 3 e 38

由addr产生的初始drop_duplicates的工作原理是假设为任何name输入的第一个地址是正确的。你知道吗

网友

2楼 · 编辑于 2024-09-27 21:35:12

另一种方法：

df['group'] = df.groupby('addr').ngroup()

d = {'name':'first','apples':'sum'}
df1 = df.groupby('name',as_index=False).sum().groupby('group').agg(d)

df1 = df1.sort_values('name').reset_index(drop=True)

print (df1)

# Output:

  name  apples
0   a    36
1   b    28
2   c    35
3   e    38

说明：

首先使用^{}对addr列中的每个组进行编号

df['group'] = df.groupby('addr').ngroup()

  name addr apples group
0   a   m    18     2
1   a   m    18     2
2   b   z    16     5
3   b   n    12     3
4   c   j    18     0
5   d   j    17     0
6   e   k    12     1 
7   e   k    11     1 
8   e   x    15     4

然后groupby返回name和sumdf.groupby('name',as_index=False).sum()

   name  apples group
 0  a     36     4
 1  b     28     8
 2  c     18     0
 3  d     17     0
 4  e     38     6

现在，相同的地址行将具有相同的组号，因此您可以在group列上再次分组，并使用^{}函数和apples = 'sum'和name = first or last来保留名称的第一个/最后一个实例。你知道吗

d = {'name':'first','apples':'sum'}
df1 = df.groupby('name',as_index=False).sum().groupby('group').agg(d)

然后只需对值进行排序并重置索引即可获得输出。你知道吗

说明：

相关问题更多 >

编程相关推荐

热门问题

热门文章