Python仅从2个数据帧中选择第一个匹配项

select IP.*, Lookup.[ID] as [lookup_ID],Lookup.[Name] as [lookup_Name] from InputDF IP LEFT join ( select Lookup.* from InputDF IP LEFT join LookupDF Lookup on [Lookup].[Name] > [IP].[Name] limit 1 ) Lookup on [Lookup].[Name] > [IP].[Name]

1条回答

网友

1楼 · 发布于 2024-09-29 21:33:06

这里有一种方法你可以试试

首先，对两个数据帧执行交叉连接或笛卡尔积

def cartesian_product_basic(left, right):
    return (
       left.assign(key=1).merge(right.assign(key=1), on='key').drop('key', 1))


df_combined = cartesian_product_basic(df_input, df_lookup)

重命名列

df_combined.columns = ["input_id", "input_name", "lookup_id", "lookup_name"]

使用密集列组将查找行与输入行正确配对

df_combined = df_combined.loc[df_combined["lookup_name"] > df_combined["input_name"]]
df_combined.loc[:, "row_rank"] = (
    df_combined.groupby(["input_id", "input_name"])['lookup_id'].rank(method='dense')
)
df_combined = df_combined.loc[df_combined["row_rank"] == 1]

在没有更大名称的行中添加，如本例中的Vishal

df_missing = df_input.merge(
    df_combined,
    how='left',
    left_on=['ID'],
    right_on=["input_id"],
    indicator=True
)

df_to_append = df_missing.loc[df_missing["_merge"] == "left_only", ["ID", "Name"]]
df_to_append.columns = ["input_id", "input_name"]
df_output = pd.concat([df_combined, df_to_append])

清除输出数据帧

df_output.drop(columns="row_rank", inplace=True)
df_output.reset_index(drop=True, inplace=True)
print(df_output)

输出

   input_id input_name  lookup_id lookup_name
0         1     Sanket        3.0      Vishal
1         1     Sanket        3.0      Vishal
2         1     Sanket        3.0      Vishal
3         2      Robin        1.0      Sanket
4         2      Robin        1.0      Sanket
5         3     Vishal        NaN         NaN
6         3     Vishal        NaN         NaN

注意：由于存在NaN值，lookup_id列显示为浮点

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python仅从2个数据帧中选择第一个匹配项

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >