在pandas数据帧中基于条件分组找到匹配行

2024-09-22 20:39:11 发布

男 | 程序猿一只，喜欢编程写python代码。

我到处寻找这个答案，但似乎没有一个能满足我的需要。下面是我需要的一个虚拟示例：

data = {'id':[1, 2, 3, 4, 1, 1, 3, 4, 1], 
        'parent':['a', 'b', 'f', 'j', 'a', 'n', 'f', 'z', 'x'], 
        'vehicle':['car', 'car', 'truck', 'suv', 'car', 'hatch', 'truck', 'suv', 'car'], 
        'color':['red', 'blue', 'grey', 'green', 'red', 'purple', 'grey', 'green', 'red'],
        'serial': [324234, 23464, 5667, 1245, 786, 34546, 8537, 111111, 8376251537]}
df = pd.DataFrame(data)
df.sort_values(by=['id', 'parent'], inplace=True)

    id  parent  vehicle   color   serial
0   1   a        car      red     324234
4   1   a        car      red     786
5   1   n        hatch    purple  34546
8   1   x        car      red     8376251537
1   2   b        car      blue    23464
2   3   f        truck    grey    5667
6   3   f        truck    grey    8537
3   4   j        suv      green   1245
7   4   z        suv      green   111111

我需要的是得到所有的行，其中id是相同的，但是父项不同，车辆和颜色是相同的。你知道吗

所以我想：

    id  parent  vehicle color   serial
0   1   a       car     red     324234
4   1   a       car     red     786
8   1   x       car     red     8376251537
3   4   j       suv     green   1245
7   4   z       suv     green   111111

注意，我想包括上面的前两个，因为它们有不同的序列号。 编辑：并且它们是具有相同id的不同父组的一部分

我试过这个然后靠近了：

target = df[df.duplicated(['id', 'vehicle', 'color'], keep=False)]

    id  parent  vehicle   color   serial
0   1   a       car       red     324234
4   1   a       car       red     786
8   1   x       car       red     8376251537
2   3   f       truck     grey    5667
6   3   f       truck     grey    8537
3   4   j       suv       green   1245
7   4   z       suv       green   111111

但是我不希望有匹配id，vehicle，color I的行对应的父行也是相同的。所以在这种情况下，我不想

    id  parent  vehicle   color   serial
2   3   f       truck     grey    5667
6   3   f       truck     grey    8537

因为他们有相同的父母。我曾考虑过分组和更改索引，但我所做的不起作用。这似乎是一个容易的问题，也许是，但我只是不能破解它！你知道吗

Tags： id df data serial green blue red car

1条回答

网友

1楼 · 发布于 2024-09-22 20:39:11

IIUC，让我们试试这个：

df[df.groupby(['id','vehicle','color'])['parent'].transform('nunique') > 1]

输出：

   id parent vehicle  color      serial
0   1      a     car    red      324234
4   1      a     car    red         786
8   1      x     car    red  8376251537
3   4      j     suv  green        1245
7   4      z     suv  green      111111

在pandas数据帧中基于条件分组找到匹配行

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pandas数据帧中基于条件分组找到匹配行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >