在pandas数据框中删除重复项后替换特定列值

df = pd.DataFrame([ ('MYC', 'nonsense', 's1'), ('MYC', 'missense', 's1'), ('MYCL', 'nonsense', 's1'), ('MYCL', 'missense', 's2'), ('MYCN', 'missense', 's3'), ('MYCN', 'UTR', 's1'), ('MYCN', 'nonsense', 's1') ], columns=['id', 'mutation', 'sample']) print(df)

结果：

我试着用我想要的东西来关闭。但是我如何将列'variation'中的值改为'multi'？在

print(df.drop_duplicates(subset=('sample','id'))) id mutation sample 0 MYC nonsense s1 3 MYCL nonsense s1 4 MYCL missense s2 5 MYCN missense s3 6 MYCN UTR s1

2条回答

网友

1楼 · 编辑于 2024-09-29 19:33:23

df.loc[df.duplicated(subset=['id', 'sample'], keep='last'), 'mutation'] = 'multi'
df.drop_duplicates(subset=['id', 'sample'])

说明：首先确定哪些是重复的，并为那些改变突变列。只有在那之后，删除重复的。在

网友

2楼 · 编辑于 2024-09-29 19:33:23

`duplicated`

mask = df.duplicated(['id', 'sample'], keep=False)
df.assign(mutation=df.mutation.mask(mask, 'multi')).drop_duplicates()

     id  mutation sample
0   MYC     multi     s1
2  MYCL   nonsens     s1
3  MYCL  missense     s2
4  MYCN  missense     s3
5  MYCN     multi     s1

`groupby`

^{pr2}$

我的代码：

结果：

我想要的：

`duplicated`

`groupby`

相关问题更多 >

编程相关推荐

热门问题

热门文章