基于dataframe（python）中列表中的相同项进行分组

Traveller Trips A [Trip_1, Trip_2, Trip_3, Trip_4, Trip_5] B [Trip_1, Trip_2, Trip_3, Trip_4] C [Trip_6, Trip_7] D [Trip_8] E [Trip_2, Trip_3, Trip_4, Trip_5] F [Trip_2, Trip_3, Trip_4, Trip_5] G [Trip_8]

1条回答

网友
1楼 · 发布于 2024-09-29 00:21:43

df = pd.DataFrame({'Traveller':[*'ABCDE'], 'Trips': [ ['Trip_1', 'Trip_2', 'Trip_3', 'Trip_4', 'Trip_5'], ['Trip_1', 'Trip_2', 'Trip_3', 'Trip_4'], ['Trip_1', 'Trip_2'], ['Trip_1'], ['Trip_2', 'Trip_3', 'Trip_4', 'Trip_5'] ] }) from itertools import combinations all_trips = df.explode('Trips')['Trips'].nunique() all_travelers = set(df.Traveller) groups, cnt = {'TravelGroup':[], 'Traveller':[]}, 1 for t1, t2 in combinations(df.Traveller, 2): s1 = df.loc[df.Traveller==t1, 'Trips'].iloc[0] s2 = df.loc[df.Traveller==t2, 'Trips'].iloc[0] if len(set(s1).intersection(s2)) / all_trips >= 0.8: group_name = 'Group_{}'.format(cnt) groups['TravelGroup'].extend([group_name, group_name]) groups['Traveller'].extend([t1, t2]) cnt += 1 df = pd.DataFrame(groups) for t in all_travelers.difference(df.Traveller): group_name = 'Group_{}'.format(cnt) df.loc[df.shape[0]] = [group_name, t] cnt += 1 print(df)
印刷品：
TravelGroup Traveller 0 Group_1 A 1 Group_1 B 2 Group_2 A 3 Group_2 E 4 Group_3 D 5 Group_4 C

相关问题更多 >

编程相关推荐

热门问题

热门文章