基于另一个表更新数据框中的多列

2条回答

网友

1楼 · 编辑于 2024-09-30 18:33:35

只需使用熊猫的合并功能

df1.merge(df2)

网友

2楼 · 编辑于 2024-09-30 18:33:35

方法1:`combine_first`

index_cols = ['test', 'Cond']
(
    df1
    .set_index(index_cols)
    .combine_first(
        df2.set_index(index_cols)
    ).reset_index()
)

说明：

set_index将指定的列移动到索引中，表示每一行都应该由其test和Cond列标识
foo.combine_first(bar)将标识foo和bar之间匹配的索引+列标签，并在foo为NaN或缺少列/行的地方填充bar中的值。在这种情况下，由于set_index，两个数据帧的行将匹配，其中test和Cond是相同的，然后df2中的UL和LL值将填充到输出的相应列中
reset_index简单地反转set_index调用，以便test和Cond再次成为正则列

请注意，此操作可能会破坏列的顺序，因此，如果这对您很重要，那么您可以在最后调用.reindex(df1.columns, axis=1)，这将按df1中的原始顺序重新排列列

方法2:`merge`

或者，您可以使用merge方法，该方法允许您在不使用set_index的情况下直接对列进行操作，但需要一些其他预处理：

index_cols = ['test', 'Cond']
(
    df1
    .drop(['LL', 'UL'], axis=1)
    .merge(
       df2,
       on=index_cols
    )
)

.drop调用是必需的，因为否则merge将在输出中包括来自两个数据帧的UL和LL列：

  test Cond  day  mode  LL_x  UL_x  LL_y  UL_y
0    a   T1  Tue     7   NaN   NaN  15.0  23.0
1    b   T2  mon     7   NaN   NaN  -3.0  -3.5
2    c   T2  sun     6   NaN   NaN -19.0 -11.0
3    c   T2  sat     6   NaN   NaN -19.0 -11.0
4    d   T3  fri     3   NaN   NaN   6.5  14.5
5    d   T3  wed     3   NaN   NaN   6.5  14.5

使用哪个

对于您提供的数据，merge似乎是更自然的操作-如果您从不期望UL和LL在df1中有任何数据，那么如果可能的话，我建议只从输入CSV中完全删除这些列标题，这样df1就根本没有这些列。在这种情况下，drop调用将不再是必需的，并且所需的merge调用非常有表现力

但是，如果您期望df1有时会有UL或LL的实际值，并且希望在输出中包含这些值，那么combine_first解决方案就是您想要的。请注意，如果df1和df2对于特定行/列具有不同的非空值，则df1.combine_first(df2)将从df1中选择值并忽略df2值。如果您想对来自df2的值进行优先级排序，那么您想反过来调用它，即df2.combine_first(df1)

方法1:`combine_first`

方法2:`merge`

使用哪个

相关问题更多 >

编程相关推荐

热门问题

热门文章