基于父id合并同一数据帧中的多行

import pandas as pd import numpy as np df = pd.DataFrame(columns=['Id', 'Parent Id', 'Child Id', 'A', 'B'], data=[[1001, np.nan, 1005, 'A1001', 'B1001'], [1002, np.nan, 1003, 'A1002', 'B1002'], [1003, 1002, 1004, 'A1003', np.nan], [1004, 1003, np.nan, 'A1004', np.nan], [1005, 1001, np.nan, 'A1005', np.nan] ]) print(df) Id Parent Id Child Id A B 0 1001 NaN 1005.0 A1001 B1001 1 1002 NaN 1003.0 A1002 B1002 2 1003 1002.0 1004.0 A1003 NaN 3 1004 1003.0 NaN A1004 NaN 4 1005 1001.0 NaN A1005 NaN

1条回答

网友

1楼 · 发布于 2024-09-27 21:31:30

您需要在父子关系链的B列中获取值。您可以使用：

for i in range(max_length_of_relationships):
    df = df.merge(df[['Id', 'B']].rename({'Id': 'Parent Id', 'B': 'Parent B'}, axis=1), how='left')
    df['B'] = df['B'].combine_first(df['Parent B'])
    df.drop('Parent B', axis=1, inplace=True)

其中max_length_of_relationships是一个链中的最大父子链接数（df中的2:1）。10002-10003，2.10003-10004），如果您不确定数字是什么，请使用不能超过的大数字。然后只保留没有childs的行，就像处理：

df = df[df['Child Id'].isnull()]

相关问题更多 >

编程相关推荐

热门问题

热门文章