使用groupby/aggregate返回多个列

data = {'AlignmentId': {0: u'ENSMUST00000000001.4-1', 1: u'ENSMUST00000000001.4-1', 2: u'ENSMUST00000000003.13-0', 3: u'ENSMUST00000000003.13-0', 4: u'ENSMUST00000000003.13-0'}, 'name': {0: u'NonCodingDeletion', 1: u'NonCodingInsertion', 2: u'CodingDeletion', 3: u'CodingInsertion', 4: u'NonCodingDeletion'}, 'value_CDS': {0: nan, 1: nan, 2: 1.0, 3: 1.0, 4: nan}, 'value_mRNA': {0: 21.0, 1: 26.0, 2: 1.0, 3: 1.0, 4: 2.0}} df = pd.DataFrame.from_dict(data)

def aggfunc(s): if s.value_CDS.any(): c = set(s.name) else: c = set(s.name) return ('CodingDeletion' in c or 'CodingInsertion' in c, 'CodingInsertion' in c, 'CodingDeletion' in c, 'CodingMult3Deletion' in c or 'CodingMult3Insertion' in c)

1条回答

网友

1楼 · 发布于 2024-10-01 22:39:10

您需要将name更改为['name']，因为.name返回组的名称（列分组依据的值）：

def aggfunc(s):
    if s.value_CDS.any():
        c = set(s['name'])
    else:
        c = set(s['name'])

    return ('CodingDeletion' in c or 'CodingInsertion' in c, 
            'CodingInsertion' in c, 'CodingDeletion' in c, 
            'CodingMult3Deletion' in c or 'CodingMult3Insertion' in c)

merged = df.groupby('AlignmentId').apply(aggfunc)
print (merged)
AlignmentId
ENSMUST00000000001.4-1     (False, False, False, False)
ENSMUST00000000003.13-0       (True, True, True, False)
dtype: object

^{pr2}$

改进代码：

def aggfunc(s):
    #if and else return same c, so omitted
    c = set(s['name'])

    #added Series for return columns instead tuples
    cols = ['col1','col2','col3','col4']
    return pd.Series(('CodingDeletion' in c or 'CodingInsertion' in c, 
            'CodingInsertion' in c, 'CodingDeletion' in c, 
            'CodingMult3Deletion' in c or 'CodingMult3Insertion' in c), index=cols)

merged = df.groupby('AlignmentId').apply(aggfunc)
print (merged)

                          col1   col2   col3   col4
AlignmentId                                        
ENSMUST00000000001.4-1   False  False  False  False
ENSMUST00000000003.13-0   True   True   True  False

相关问题更多 >

编程相关推荐

热门问题

热门文章