基于groupby值从Pandas dataframe中删除行

tempDF = pd.DataFrame({ 'recordID': [1,2,3,3,4,5,6,6,6,7,7,8,9,10], 'text': ['abc', 'def', 'ghi', 'ghijkl', 'mto', 'per', 'st', 'stuvw', 'stuvwx', 'yz', 'yzab', 'cde', 'fgh', 'ijk']})

recordID text dupl texLen 0 21 abc False 3 1 22 def False 3 2 23 ghi True 3 3 23 ghijkl True 6 4 24 mno False 3 5 25 pqr False 3 6 26 st True 2 7 26 stuvw True 5 8 26 stuvwx True 6 9 27 yz True 2 10 27 yzab True 4 11 28 cde False 3 12 29 fgh False 3 13 30 ijk False 3

for name, group in tempGrouped: print('n',name) print(group) 23 recordID text dupl texLen 2 23 ghi True 3 3 23 ghijkl True 6 26 recordID text dupl texLen 6 26 st True 2 7 26 stuvw True 5 8 26 stuvwx True 6 27 recordID text dupl texLen 9 27 yz True 2 10 27 yzab True 4

recordID text dupl texLen 0 21 abc False 3 1 22 def False 3 3 23 ghijkl True 6 4 24 mno False 3 5 25 pqr False 3 8 26 stuvwx True 6 10 27 yzab True 4 11 28 cde False 3 12 29 fgh False 3 13 30 ijk False 3

1条回答

网友

1楼 · 发布于 2024-09-26 17:38:21

您可以尝试通过^{}、^{}在dupl列和最后一个^{}找到最大值的索引：

idx = tempDF[tempDF['dupl']==True].groupby('recordID')['texLen'].idxmax()   

print tempDF.loc[idx]
    recordID    text  dupl  texLen
3         23  ghijkl  True       6
8         26  stuvwx  True       6
10        27    yzab  True       4

print pd.concat([tempDF[tempDF['dupl']==False], tempDF.loc[idx]]).sort_index(0)
    recordID    text   dupl  texLen
0         21     abc  False       3
1         22     def  False       3
3         23  ghijkl   True       6
4         24     mto  False       3
5         25     per  False       3
8         26  stuvwx   True       6
10        27    yzab   True       4
11        28     cde  False       3
12        29     fgh  False       3
13        30     ijk  False       3

更简单的解决方案使用^{}和^{}，因为带有False的行具有唯一的recordID（不重复）：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章