使用列（字符串数据类型）的值筛选

# ID | functionality | v_region_score | constant_region # ----------------------------------------------------------------- # 123 | productive | 820 | NaN # | unknown | 720 | NaN # | unknown | 720 | IgM # 456 | unknown | 690 | NaN # | unknown | 670 | NaN # 789 | productive | 780 | IgM # | productive | 780 | NaN

df1 = pd.DataFrame([ [789, "productive", 780, "IgM"], [123, "unknown", 720, np.nan], [123, "unknown", 720, "IgM"], [789, "productive", 780, np.nan], [123, "productive", 820, np.nan], [456, "unknown", 690, np.nan], [456, "unknown", 670, np.nan]], columns=["ID", "functionality", "v_region_score", "constant_region"])

df2 = pd.DataFrame([ [789, "productive", 780, "IgM"], [123, "productive", 820, np.nan], [456, "unknown", 690, np.nan]], columns=["ID", "functionality", "v_region_score", "constant_region"])

1条回答

网友

1楼 · 发布于 2024-05-19 19:28:41

您可以从不同的角度来处理您的问题：

根据您的条件对值进行排序
分组依据ID
保留每个分组的第一个结果ID

例如：

df1 = df1.sort_values(['ID','functionality','v_region_score','constant_region'], ascending=[True,True,False,True], na_position='last')

df1.groupby('ID').first().reset_index()

Out[0]:
    ID functionality  v_region_score constant_region
0  123    productive             820             IgM
1  456       unknown             690             NaN
2  789    productive             780             IgM

此外，如果要在null时合并constant_region中的值，可以使用fillna(method='ffill')，以便保留存在的值：

## sorted here

df1['constant_region'] = df1.groupby('ID')['constant_region'].fillna(method='ffill')

df1
Out[1]: 
    ID functionality  v_region_score constant_region
4  123    productive             820             NaN
2  123       unknown             720             IgM
1  123       unknown             720             IgM
5  456       unknown             690             NaN
6  456       unknown             670             NaN
0  789    productive             780             IgM
3  789    productive             780             IgM

## Group by here

相关问题更多 >

编程相关推荐

热门问题

热门文章