在Python中如何删除基于部分字符串的重复行

2条回答

网友

1楼 · 编辑于 2024-10-01 15:35:21

使用drop\u duplicates和keep参数，这在pandas中更容易实现。在

# dataset
df = pd.DataFrame({'id':[1,2,3,4],'city':['New York City','New York','Tokyo City','Tokyo']})
# replace values
df.city = df.city.str.replace('City','').str.strip()
# drop duplicate (answer of original question)
df.drop_duplicates(subset=['city'])

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

网友

2楼 · 编辑于 2024-10-01 15:35:21

用空字符串替换City部分，并通过保留第一行来应用group

df=pd.DataFrame({'id':[1,2,3,4],'city':['New York City','New York','Tokyo City','Tokyo']})

df看起来像这样

^{pr2}$

应用replace和group by以获取每个组中的第一行

df.city=df.city.str.replace('City','').str.strip()
df.groupby('city').first().sort_values('id')

输出：

city       id
New York    1
Tokyo       3

或者在列的子集上使用drop\u duplicates。谢谢@JR ibkr

df.drop_duplicates(subset='city')

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中如何删除基于部分字符串的重复行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >