比较groupby中的字符串行并为新列赋值

# splitting database in two bool_series = df["ID"].duplicated(keep=False) df_duplicated=df[bool_series] df_unique = df[~bool_series] # assigning 0 for ManagerChange for the unique IDs df_unique['ManagerChange'] = 0 # groupby by ID and sorting by year for the duplicated IDs df_duplicated.groupby('ID').apply(lambda x: x.sort_values('Year'))

1条回答

网友

1楼 · 发布于 2024-09-27 04:12:19

您可以按shift()分组，然后在Boss列上进行比较

# Sort value first
df.sort_values(['ID', 'Year'], inplace=True)

# Compare Boss column with shifted Boss column
df['ManagerChange'] = df.groupby('ID').apply(lambda group: group['Boss'] != group['Boss'].shift(1)).tolist()

# Change True to 1, False to 0
df['ManagerChange'] = df['ManagerChange'].map({True: 1, False: 0})

# Sort df to original df
df = df.sort_index()

# Change the first in each group to 0
df.loc[df.groupby('ID').head(1).index, 'ManagerChange'] = 0

# print(df)

     ID  Year     Boss  ManagerChange
0  1234  2018     Anna              0
1   567  2019    Sarah              0
2  1234  2020  Michael              0
3  8976  2019     John              0
4  1234  2019  Michael              1
5  8976  2020     John              0

您还可以使用fill_value参数，这将帮助您摆脱最后的df.loc[]操作

# Sort value first
df.sort_values(['ID', 'Year'], inplace=True)

df['ManagerChange'] = df.groupby('ID').apply(lambda group: group['Boss'] != group['Boss'].shift(1, fill_value=group['Boss'].iloc[0])).tolist()

# Change True to 1, False to 0
df['ManagerChange'] = df['ManagerChange'].map({True: 1, False: 0})

# Sort df to original df
df = df.sort_index()

相关问题更多 >

编程相关推荐

热门问题

热门文章

比较groupby中的字符串行并为新列赋值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >