找到2个依赖属性的最大计数，并用该值替换重复的行

venueId venueCategoryId venueCategory v1 vc1 Airport v1 vc2 Park v1 vc1 Airport v2 vc3 American Restaurant v3 vc4 Italian Restaurant v3 vc5 Restaurant

venueId venueCategoryId venueCategory v1 vc1 Airport v2 vc3 American Restaurant v3 vc4 Italian Restaurant

1条回答

网友

1楼 · 发布于 2024-09-29 21:39:10

这里有一个通过^{}的解决方案。很可能有一种更为宽宏大量的方法。你知道吗

# combine id and category series
df['venueIdCat'] = list(zip(df.venueCategoryId, df.venueCategory))

# groupby venueId and extract mode
res = df.groupby('venueId')['venueIdCat'].apply(pd.Series.mode).reset_index()

# unsplit id and category
res = res.join(pd.DataFrame(res['venueIdCat'].values.tolist(),
                            columns=['venueCategoryId', 'venueCategory']))

# select required columns
res = res[['venueId', 'venueCategoryId', 'venueCategory']]

print(res)

  venueId venueCategoryId       venueCategory
0      v1             vc1             Airport
1      v2             vc3  AmericanRestaurant
2      v3             vc4   ItalianRestaurant

使用collections.Counter的替代解决方案：

from collections import Counter

# combine id and category series
df['venueIdCat'] = list(zip(df.venueCategoryId, df.venueCategory))

# groupby venueId and extract mode
res = df.groupby('venueId')['venueIdCat'].apply(lambda x: Counter(x).most_common()[0][0]).reset_index()

# unsplit id and category
res = res.join(pd.DataFrame(res['venueIdCat'].values.tolist(),
                            columns=['venueCategoryId', 'venueCategory']))

# select required columns
res = res[['venueId', 'venueCategoryId', 'venueCategory']]

print(res)

  venueId venueCategoryId       venueCategory
0      v1             vc1             Airport
1      v2             vc3  AmericanRestaurant
2      v3             vc4   ItalianRestaurant

相关问题更多 >

编程相关推荐

热门问题

热门文章

找到2个依赖属性的最大计数，并用该值替换重复的行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >