如何从另一个数据帧更新多索引数据帧？

Something1 Something2 date 2020-03-30 2020-03-31 2020-04-01 2020-03-30 2020-03-31 2020-04-01 index_1 index_2 index_3 index_4 A0 B0 C0 D0 10 NaN 11 'bla' 'bli' 'blo' A1 B1 C1 D1 8 NaN NaN 'bla1' 'bli1 'blo1' A2 B2 C2 D0 0 NaN 303 'bla2' 'bli2' 'blo2'

Something1 Something2 date 2020-03-30 2020-03-31 2020-04-01 2020-03-30 2020-03-31 2020-04-01 index_1 index_2 index_3 index_4 A0 B0 C0 D0 10 9 11 'bla' 'bli' 'blo' A1 B1 C1 D1 8 NaN NaN 'bla1' 'bli1' 'blo1' A2 B2 C2 D0 0 9 303 'bla2' 'bli2' 'blo2'

2条回答

网友

1楼 · 编辑于 2024-10-03 13:28:33

我能想到的一种方法是重塑数据，这样我们就可以将index_4和date作为索引，映射值，然后重新重塑：

df2 = df2.set_index(['date','index_4'])

s = df['S1'].unstack(level=-1).T
df['S1'] = s.apply(lambda x: x.fillna(df2['val'])).T.stack(level=-1)

网友

2楼 · 编辑于 2024-10-03 13:28:33

为了使用矢量化实现更新数据帧，两个数据帧之间的列和行索引必须匹配
给定df和df2，如问题所示。在问题的底部设置了可复制的数据帧
此实现避免使用.apply，而是使用^{}

向df2添加列级别，使其与df的列级别匹配
重置df的索引以仅包含df2中的索引
从df2更新df，并根据需要重置索引

import pandas

# set the column index of df2 to have a matching level 0
df2.columns = pd.MultiIndex.from_product([['S1'], df2.columns])

# display(df2)
                         S1           
      2020-03-30 2020-03-31
idx4                       
D0             8          9
D1            17         33

# reset the index of dfg so only idx4 is in the index
df = df.reset_index(level=[0, 1, 2])

# update the df from df2
df.update(df2, overwrite=False)
df = df.reset_index().set_index(['idx1', 'idx2', 'idx3', 'idx4'], append=True)

# display(df)
                                                    S1                               S2                      
                      2020-03-30 2020-03-31 2020-04-01 2020-03-30 2020-03-31 2020-04-01
  idx1 idx2 idx3 idx4                                                                  
0 A0   B0   C0   D0           10          9         11        bla        bli        blo
1 A1   B1   C1   D1            8         33        NaN       bla1       bli1       blo1
2 A2   B2   C2   D0            0          9        303       bla2       bli2       blo2

可复制的`df2`设置

df2 = pd.DataFrame.from_dict({'D0': {'2020-03-30': 8, '2020-03-31': 9}, 'D1': {'2020-03-30': 17, '2020-03-31': 33}}, 'index')
df2.index.names = ['idx4']

# display(df2)
       2020-03-30  2020-03-31
idx4                         
D0              8           9
D1             17          33

可复制的`df`设置

data = {('A0', 'B0', 'C0', 'D0'): {('S1', '2020-03-30'): '10', ('S1', '2020-03-31'): pd.NA, ('S1', '2020-04-01'): '11', ('S2', '2020-03-30'): 'bla', ('S2', '2020-03-31'): 'bli', ('S2', '2020-04-01'): 'blo'},
        ('A1', 'B1', 'C1', 'D1'): {('S1', '2020-03-30'): '8', ('S1', '2020-03-31'): pd.NA, ('S1', '2020-04-01'): pd.NA, ('S2', '2020-03-30'): 'bla1', ('S2', '2020-03-31'): 'bli1', ('S2', '2020-04-01'): 'blo1'},
        ('A2', 'B2', 'C2', 'D0'): {('S1', '2020-03-30'): '0', ('S1', '2020-03-31'): pd.NA, ('S1', '2020-04-01'): '303', ('S2', '2020-03-30'): 'bla2', ('S2', '2020-03-31'): 'bli2', ('S2', '2020-04-01'): 'blo2'}}

df = pd.DataFrame.from_dict(data, 'index')
df.index.names = ['idx1', 'idx2', 'idx3', 'idx4']

                                                  S1                               S2                      
                    2020-03-30 2020-03-31 2020-04-01 2020-03-30 2020-03-31 2020-04-01
idx1 idx2 idx3 idx4                                                                  
A0   B0   C0   D0           10       <NA>         11        bla        bli        blo
A1   B1   C1   D1            8       <NA>       <NA>       bla1       bli1       blo1
A2   B2   C2   D0            0       <NA>        303       bla2       bli2       blo2

可复制的`df2`设置

可复制的`df`设置

相关问题更多 >

编程相关推荐

热门问题

热门文章