Pandas：合并数据帧但求和重叠列

df1 = Month Dec Nov ID XXX 4.0 1.0 YYY 8.0 3.0 ZZZ 4.0 1.0 df2 = Month Dec Nov Oct ID AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 YYY 5.0 5.0 0.0

df1.merge(df2,how='outer',on='ID') = Month Dec_x Nov_x Dec_y Nov_y Oct ID XXX 4.0 1.0 NaN NaN NaN YYY 8.0 3.0 5.0 5.0 0.0 ZZZ 4.0 1.0 NaN NaN NaN AAA NaN NaN 1.0 7.0 9.0 BBB NaN NaN 0.0 NaN 2.0

df3 = df1.merge(df2,how='outer',on='ID',suffixes=['','_x']) overlapping_months_sufx = df3.columns.values[df3.columns.str.endswith('_x')] for mnth_sufx in overlapping_months_sufx: mnth = mnth_sufx[:-2] df3[mnth][df3[mnth_sufx].notnull()] = df3[mnth].fillna(0) + df3[mnth_sufx] df3=df3.drop(columns=mnth_sufx) df3 = Month Dec Nov Oct ID XXX 4.0 1.0 NaN YYY 13.0 8.0 0.0 ZZZ 4.0 1.0 NaN AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0

2条回答

网友

1楼 · 编辑于 2024-06-26 13:16:18

这是一个尝试。如果我理解正确，请留言。在

给予：

>>> df1                                                                                                                
Month  Dec  Nov
ID             
XXX    4.0  1.0
YYY    8.0  3.0
ZZZ    4.0  1.0
>>> df2                                                                                                                
Month  Dec  Nov  Oct
ID                  
AAA    1.0  7.0  9.0
BBB    0.0  NaN  2.0
YYY    5.0  5.0  0.0

解决方案：

^{pr2}$

说明：

串联只是将df2放在df1之下。在

>>> cat = pd.concat([df1, df2])                                                                                        
>>> cat                                                                                                                
     Dec  Nov  Oct
ID                
XXX  4.0  1.0  NaN
YYY  8.0  3.0  NaN
ZZZ  4.0  1.0  NaN
AAA  1.0  7.0  9.0
BBB  0.0  NaN  2.0
YYY  5.0  5.0  0.0

reset_index将索引移到列中。在

>>> cat = cat.reset_index()                                                                                            
>>> cat                                                                                                                
    ID  Dec  Nov  Oct
0  XXX  4.0  1.0  NaN
1  YYY  8.0  3.0  NaN
2  ZZZ  4.0  1.0  NaN
3  AAA  1.0  7.0  9.0
4  BBB  0.0  NaN  2.0
5  YYY  5.0  5.0  0.0

我这样做的目的是有一个名为'ID'的列，我可以根据该列对其他值进行分组。groupby('ID', sort=False)在'ID'列中创建共享相同值的行组（并且sort=False确保最终结果中的行排序不匹配您的输出）。在

我们可以这样检查组大小：

>>> cat.groupby('ID', sort=False).size()                                                                               
ID
XXX    1
YYY    2
ZZZ    1
AAA    1
BBB    1
dtype: int64

如您所见，我们只有一组大小为2的组，因为'YYY'ID是唯一重复的。在

sum(min_count=1)的工作原理是这样的：每个组中的值根据其列进行汇总。参数min_count=1确保所有NaN值的一系列相加后得到NaN。在

>>> cat.groupby('ID', sort=False).sum(min_count=1)                                                      
      Dec  Nov  Oct
ID                 
XXX   4.0  1.0  NaN
YYY  13.0  8.0  0.0
ZZZ   4.0  1.0  NaN
AAA   1.0  7.0  9.0
BBB   0.0  NaN  2.0

演示min_count：

>>> s = pd.Series([np.nan, np.nan])                                                                                    
>>> s                                                                                                                  
0   NaN
1   NaN
dtype: float64
>>>                                                                                                                    
>>> s.sum()                                                                                                            
0.0
>>> s.sum(min_count=1)                                                                                                 
nan
>>> s[0] = 1                                                                                                           
>>> s                                                                                                                  
0    1.0
1    NaN
dtype: float64
>>> s.sum()                                                                                                            
1.0
>>> s.sum(min_count=1)                                                                                                 
1.0
>>> s.sum(min_count=2)                                                                                                 
nan

网友

2楼 · 编辑于 2024-06-26 13:16:18

我的方法是插入那些只存在于一个数据帧中的值，然后在这些索引处插入求和结果为NaN的值：

result = df1 + df2

Month   Dec  Nov  Oct
ID                   
AAA     NaN  NaN  NaN
BBB     NaN  NaN  NaN
XXX     NaN  NaN  NaN
YYY    13.0  8.0  NaN
ZZZ     NaN  NaN  NaN

result = result.where(~result.isna(), df1)

Month   Dec  Nov  Oct
ID                   
AAA     NaN  NaN  NaN
BBB     NaN  NaN  NaN
XXX     4.0  1.0  NaN
YYY    13.0  8.0  NaN
ZZZ     4.0  1.0  NaN

result = result.where(~result.isna(), df2)

Month   Dec  Nov  Oct
ID                   
AAA     1.0  7.0  9.0
BBB     0.0  NaN  2.0
XXX     4.0  1.0  NaN
YYY    13.0  8.0  0.0
ZZZ     4.0  1.0  NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章