大Pandas重复手术的分组和求和法

import pandas as pd data1 = { "OldArea" : ['area1','area2','area3'], "numbercount" : [10,20,5], "FusedIntoArea" : ['area4','area4','area3'] } frame1 = pd.DataFrame(data1, columns=['OldArea', 'FusedIntoArea', 'numbercount']) frame1

data2 = { 'year0' : ['area1', 'area2', 'area3', 'area6'], 'year1' : ['area4', 'area4', 'area3', 'area6'], 'year2' : ['area5', 'area5', 'area5', 'area6'] } frame2 = pd.DataFrame(data2, columns = ['year0', 'year1', 'year2']) frame2

data4 = { "OldAreas" :[1,2,3,4,5,6], "NewArea" : ['area5','area5','area5','area5','area5','area6'], "TotalNumber" : [85,85,85,85,85, 25] } frame4 = pd.DataFrame(data4, columns=['NewArea', 'TotalNumber']) frame4

1条回答

网友

1楼 · 发布于 2024-10-05 10:40:47

可以使用dictionnaries映射现有数据。在

首先创建一个词汇表，它告诉你每个区域在哪个区域融合：

areas_to_fuse = dict(zip(frame2.year0.values, frame2.year2.values))
areas_to_fuse = {**areas_to_fuse,**dict(zip(frame2.year1.values, frame2.year2.values))}


{'area1': 'area5',
 'area2': 'area5',
 'area3': 'area5',
 'area4': 'area5',
 'area6': 'area6'}

这样，您就可以通过在frame3['area']上使用replace来创建NewArea列（请注意，replace允许保留字典键中不存在的值，如果您更喜欢缺少值，请使用map）

^{pr2}$

然后，您可以为值对应的每个区域创建第二个字典式编码，并将其映射到列NewArea：

newvalues = frame3.groupby('NewArea').numbercount.sum().to_dict()
frame3['TotalNumber'] = frame3.NewArea.map(newvalues)
frame3[['NewArea','TotalNumber']]

    NewArea     TotalNumber
0   area5       85
1   area5       85
2   area5       85
3   area5       85
4   area5       85
5   area6       25

相关问题更多 >

编程相关推荐

热门问题

热门文章