如何从groupby DataFrame给定索引中检索元素

HapID Marker Start_position End_position hap_1 mk1 1107207 1107256 hap_1 mk2 1104711 1104760 hap_1 mk3 1106845 1106894 hap_2 mk4 11901413 11901462 hap_2 mk5 206031250 206031299 hap_2 mk6 11498893 11498942 hap_2 mk7 17236023 17236072 hap_2 mk8 11692209 11692258 hap_2 mk9 11691512 11691561 hap_2 mk10 11615664 11615713

import pandas as pd data = { 'HapID':['hap_1','hap_1','hap_1','hap_2','hap_2','hap_2','hap_2','hap_2','hap_2','hap_2'], 'Marker':['mk1','mk2','mk3','mk4','mk5','mk6','mk7','mk8','mk9','mk10'], 'Start_position':[1107207,1104711,1106845,11901413,206031250,11498893,17236023,11692209,11691512,11615664], 'End_position':[1107256,1104760,1106894,11901462,206031299,11498942,17236072,11692258,11691561,11615713]} df = pd.DataFrame(data) haplotypes = df.groupby(df['HapID']) posi_1 = haplotypes.Start_position.min() posi_2 = haplotypes.End_position.max() diff_posi = posi_2 - posi_1 a = haplotypes.Start_position.idxmin()#index at minimum Start_position b = haplotypes.End_position.idxmax() #index at maximum End_position #print('{} {} {}'.format(posi_1,posi_2,diff_posi)) #print('{} {}'.format(a,b)) #just to se if I'm getting the index

2条回答

网友

1楼 · 编辑于 2024-09-29 21:23:05

我想你需要从原始数据帧中检索标记。在

leftMarker = df.loc[a,['HapID','Marker']]
rigthMarker = df.loc[b,['HapID','Marker']]

print(leftMarker)

   HapID Marker
1  hap_1    mk2
5  hap_2    mk6

print(rightMarker)

   HapID Marker
0  hap_1    mk1
4  hap_2    mk5

网友

2楼 · 编辑于 2024-09-29 21:23:05

这是将函数应用于pandasgroupby的一个相当简单的例子。您应该阅读pandas docs on how to use groupby，以便更好地理解如何/何时使用此技术。在

def my_fn(df):
    mk_min = df.loc[df['Start_position'].idxmin()]
    mk_max = df.loc[df['End_position'].idxmax()]
    vals = [mk_min['Marker'], mk_max['Marker'], mk_min['Start_position'], mk_max['End_position'], mk_max['End_position'] - mk_min['Start_position']]
    idx = ['leftMarker', 'rightMarker', 'Start_position', 'End_position', 'Interval']
    return pd.Series(vals, index=idx)

df.groupby('HapID').apply(my_fn)

退货

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章