一种确定两系列码之间一致编码的算法

import pandas as pd import numpy as np df = pd.DataFrame([ [0,0], [1,2], [1,3], [2,4], [3,4], [4,5], [4,6], [5,5], [10,11], [10,13], [11,11] ], columns=list('AB')) df A B 0 0 0 1 1 2 2 1 3 3 2 4 4 3 4 5 4 5 6 4 6 7 5 5 8 10 11 9 10 13 10 11 11

sizesA = df.groupby('A').size() sizesB = df.groupby('B').size() df['sizeA'] = df['A'].map(sizesA) df['sizeB'] = df['B'].map(sizesB) df['C'] = np.nan next_v = 0 # 1:m matching for a in df[df.sizeA>=1].A.unique(): if df[df.A==a]['sizeB'].max()==1: df['C'] = np.where(df['A']==a, next_v, df['C']) next_v += 1 # m:1 matching for b in df[df.sizeB>1].B.unique(): if df[df.B==b]['sizeA'].max()==1: df['C'] = np.where(df['B']==b, next_v, df['C']) next_v += 1 df A B sizeA sizeB C 0 0 0 1 1 0.0 1 1 2 2 1 1.0 2 1 3 2 1 1.0 3 2 4 1 2 2.0 4 3 4 1 2 2.0 5 4 5 2 2 NaN 6 4 6 2 1 NaN 7 5 5 1 2 NaN 8 10 11 2 2 NaN 9 10 13 2 1 NaN 10 11 11 1 2 NaN

2条回答

网友

1楼 · 编辑于 2024-10-03 09:15:26

我真的想出了一个解决办法。也许没那么优雅

ungrouped = df['A'].unique().tolist()
Anew = pd.Series(index=sorted(df['A'].unique()))
Bnew = pd.Series(index=sorted(df['B'].unique()))

g = 0

Avals = [ungrouped[0]]

while True:
    Bvals = df[df['A'].isin(Avals)].B.unique().tolist()

    Acheck = df[df['B'].isin(Bvals)].A.unique().tolist()

    if set(Acheck) == set(Avals):
        Anew.loc[Avals] = g
        Bnew.loc[Bvals] = g
        g += 1
        ungrouped = [a for a in ungrouped if a not in Avals]
        if len(ungrouped) == 0:
            break
        Avals = [ungrouped[0]]
    else:
        Avals = Acheck

df['C'] = df['A'].map(Anew)
df
     A   B    C
0    0   0  0.0
1    1   2  1.0
2    1   3  1.0
3    2   4  2.0
4    3   4  2.0
5    4   5  3.0
6    4   6  3.0
7    5   5  3.0
8   10  11  4.0
9   10  13  4.0
10  11  11  4.0

网友

2楼 · 编辑于 2024-10-03 09:15:26

C需要从0开始还是可以从1开始？我只是减去1，这样你就可以从0开始。你可以根据自己的需要调整它

使用cumcount和cumsum应该会更容易

df['C'] = ((df.groupby('A').cumcount()==0) & (df.groupby('B').cumcount()==0)).cumsum()-1

print(df)

print(df)

     A   B  C
0    0   0  0
1    1   2  1
2    1   3  1
3    2   4  2
4    3   4  2
5    4   5  3
6    4   6  3
7    5   5  3
8   10  11  4
9   10  13  4
10  11  11  4

相关问题更多 >

编程相关推荐

热门问题

热门文章