Pandas是dataframeB特定行的子集吗？

dfA = entityId entityName property value 0 1 bob propA a 1 1 bob propB b 2 1 bob propC c 3 2 dave propA aa 4 2 dave propC c 5 3 bob propA a 6 3 bob propB bb 7 3 bob propD d 8 4 alex propE ee 9 4 alex propF fff dfB = entityId entityValid property value propValid propId 0 123 yes propA a yes 1 1 123 yes propB b yes 2 2 123 yes propC c yes 3 3 124 no propA aa no 4 4 124 no propC c yes 3 5 125 not sure propA a yes 1 6 125 not sure propB bb yes 5 7 125 not sure propD d yes 6 8 126 no propE ee yes 7 9 126 no propF FF yes 8

resultDf = entityId entityName dfBEntityIdMatch valid invalidProps 0 1 bob 123 yes () 1 2 dave 124 no (4) 2 3 bob 125 not sure () 3 4 alex '---' '---' '---'

import pandas as pd pd.set_option('display.max_columns',20) dfA = pd.DataFrame([[1, 'bob', 'propA', 'a'], [1, 'bob', 'propB', 'b' ], [1, 'bob', 'propC', 'c' ], [2, 'dave', 'propA', 'aa' ], [2, 'dave', 'propC', 'c' ], [3, 'bob', 'propA', 'a' ], [3, 'bob', 'propB', 'bb' ], [3, 'bob', 'propD', 'd' ], [4, 'alex', 'propE', 'ee' ], [4, 'alex', 'propF', 'fff' ]], columns=['entityId', 'entityName', 'property', 'value']) dfB = pd.DataFrame([[123, 'yes', 'propA', 'a', 'yes', 1], [123, 'yes', 'propB', 'b', 'yes', 2], [123, 'yes', 'propC', 'c', 'yes', 3], [124, 'no', 'propA', 'aa', 'no', 4], [124, 'no', 'propC', 'c', 'yes', 3], [125, 'not sure', 'propA', 'a', 'yes', 1 ], [125, 'not sure', 'propB', 'bb', 'yes', 5 ], [125, 'not sure', 'propD', 'd', 'yes', 6 ], [126, 'no', 'propE', 'ee', 'yes', 7], [126, 'no', 'propF', 'FF', 'yes', 8 ]], columns=['entityId', 'entityValid', 'property', 'value', 'propValid', 'propId'])

1条回答

网友

1楼 · 发布于 2024-09-28 12:11:17

这里有一种方法可以获得与预期输出类似的结果，至少在您提供的数据上是这样。首先在dfB中创建“invalidProps”列

dfB.loc[dfB['propValid'] == 'no','invalidProps'] = dfB.loc[dfB['propValid'] == 'no','propId']
dfB['invalidProps'] = dfB['invalidProps'].fillna('')

现在您可以独立地使用groupby数据帧和agg使用不同的方法。如果实际数据在数据帧之间的顺序不同，则需要首先按“property”和“value”进行sort_values

dfA_g = (dfA.sort_values(['property', 'value'])
              .groupby(['entityId','entityName'],as_index=False).agg(tuple))
dfB_g = (dfB.sort_values(['property', 'value'])
              .groupby(['entityId','entityValid'],as_index=False)
               .agg({'property':lambda x: tuple(x), 
                     'value':lambda x: tuple(x), 
                     'invalidProps':lambda x: tuple(filter(None,x))}))

现在您可以merge在“property”和“value”上使用fillna替换nan值，drop替换不必要的列，rename替换要保留的列：

resultDf  = (dfA_g.merge(dfB_g, how='left', on=['property', 'value'],suffixes=('','_'))
                  .fillna(' -').drop(['property', 'value'],1)
                  .rename(columns={'entityId_':'dfBEntityIdMatch', 'entityValid':'valid'}))

你会得到这样的结果：

   entityId entityName dfBEntityIdMatch     valid invalidProps
0         1        bob              123       yes           ()
1         2       dave              124        no       (4.0,)
2         3        bob              125  not sure           ()
3         4       alex               -        -           -

相关问题更多 >

编程相关推荐

热门问题

热门文章