使用Pandas操作数据集和过滤数据

Name Group Colour Age Title JobRole John Smith 1 NaN NaN NaN NaN John Smith 2 NaN NaN NaN NaN John Smith 3 NaN NaN NaN NaN James Man 1 NaN NaN NaN NaN .....

import pandas as pd import numpy as np groupDf = pd.read_excel("dataset1.xlsx") newDf = pd.read_excel("dataset2.xlsx") for name in newDf['Name']: filtered_data = groupDf[groupDf.Name == name] print(filtered_data)

1条回答

网友

1楼 · 发布于 2024-09-29 23:22:07

我认为需要^{}和左连接，^{}来替换NaN：

#left join df2, if existing columns name is added _ to end
df = df1.merge(df2, on='Name', how='left', suffixes=('','_'))

#filter columns names
new_cols = df.columns[df.columns.str.endswith('_')]

#remove last char from column names
orig_cols = new_cols.str[:-1]
#dictionary for rename
d = dict(zip(new_cols, orig_cols))

#filter columns and replace NaNs by new appended columns
df[orig_cols] = df[orig_cols].combine_first(df[new_cols].rename(columns=d))
#remove appended columns 
df = df.drop(new_cols, axis=1)
#print (df)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Pandas操作数据集和过滤数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >