如果某些值是blan，Python Pandas会合并行

ID Name Address Zip Cost 1 Bob the Builder 123 Main St 12345 1 Bob the Builder $99,999.99 2 Bob the Builder 123 Sub St 54321 $74,483.01 3 Nigerian Prince Area 51 33333 $999,999.99 3 Pinhead Larry Las Vegas 31333 $11.00 4 Fox Mulder Area 51 $0.99

2条回答

网友

1楼 · 编辑于 2024-10-01 15:33:34

我将描述一个算法：

将填充所有字段的所有行放在一边。我们不需要碰这些。在
创建一个类似输入的布尔数据帧，其中空字段为False，填充字段为True。这是df.notnull()。在
对于df.Name.unique()中的每个名称：
1. 将df[df.Name == name]作为工作集。在
2. 对布尔行的每对（或元组）求和，得到的布尔向量与输入列的宽度相同，但始终填充的列除外。在本例中，这意味着[True, True, False]和{}，因此总和是[1, 1, 1]。在
3. 如果任意位置的和等于1，则可以合并该对（或元组）行。在

但是这里有很多可能的边缘情况，例如如果你有三行a，B，C，你可以合并a+B或a+C怎么办。如果你能在实现合并算法之前缩小数据中存在的约束，这将有帮助。在

网友

2楼 · 编辑于 2024-10-01 15:33:34

这只适用于我们可能合并的行彼此相邻的情况。在

设置

df = pd.DataFrame(dict(
        ID=[1, 1, 2, 3, 3, 4],
        Name=['Bob the Builder'] * 3 + ['Nigerian Prince', 'Pinhead Larry', 'Fox Mulder'],
        Address=['123 Main St', '', '123 Sub St', 'Area 51', 'Las Vegas', 'Area 51'],
        Zip=['12345', '', '54321', '33333', '31333', ''],
        Cost=['', '$99,999.99', '$74,483.01', '$999.999.99', '$11.00', '$0.99']
    ))[['ID', 'Name', 'Address', 'Zip', 'Cost']]

填补缺失
replace('', np.nan)然后向前填充，然后反向填充

^{pr2}$

concat
如果填充的最后一行是重复行，则取最后一行如果没有重复，则取非填充df

pd.concat([
        df_[df_.duplicated()],
        df.loc[df_.drop_duplicates(keep=False).index]
    ])

相关问题更多 >

编程相关推荐

热门问题

热门文章