使用python（pandas）对CSV文件进行条件合并

file1: store_id,address,phone 9191,9827 Park st,999999999 8181,543 Hello st,1111111111 file2: store_id,address,phone 9191,9827 Park st Apt82,999999999 7171,912 John st,87282728282 Expected output: 9191,9827 Park st Apt82,999999999 8181,543 Hello st,1111111111 7171,912 John st,87282728282

2条回答

网友

1楼 · 编辑于 2024-10-01 07:27:10

将它们组合在一起的一种方法是使用merge（在store_id和number上，如果这些是索引，那么这将是一个join而不是merge）：

In [11]: res = df1.merge(df2, on=['store_id', 'phone'], how='outer')

In [12]: res
Out[12]:
   store_id     address_x        phone           address_y
0      9191  9827 Park st    999999999  9827 Park st Apt82
1      8181  543 Hello st   1111111111                 NaN
2      7171           NaN  87282728282         912 John st

然后，您可以使用^{}来选择address_y，否则{}：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 07:27:10

不如使用concat、groupby、agg，然后编写一个agg函数来选择正确的值：

import pandas as pd
import io

t1 = """store_id,address,phone
9191,9827 Park st,999999999
8181,543 Hello st,1111111111"""

t2 = """store_id,address,phone
9191,9827 Park st Apt82,999999999
7171,912 John st,87282728282"""

df1 = pd.read_csv(io.BytesIO(t1))
df2 = pd.read_csv(io.BytesIO(t2))

df = pd.concat([df1, df2]).reset_index(drop=True)

def f(s):
    loc = s.str.len().idxmax()
    return s[loc]

df.groupby(["store_id", "phone"]).agg(f)

相关问题更多 >

编程相关推荐

热门问题

热门文章