如何根据数据帧中的值有条件地对数据分组？

index position group 0 125 grade A 1 256 grade A1 2 314 grade A2 3 355 grade A2 4 549 grade A3 5 601 grade A2 6 654 grade A1 7 727 grade A1 8 1100 grade A3 9 1217 grade A3

2条回答

网友

1楼 · 编辑于 2024-09-27 07:30:45

我会：

连接两个数据帧
为具有计算为'grade A'+消息编号的消息的所有行添加一个新列grade
对position列上的串联数据帧进行排序
使用fillna用上一条消息的等级填充等级列
再次使用fillna将第一条消息之前的任何行设置为'grade A'
提取没有消息的行以构建结果数据帧

代码可以是：

tmp = pd.concat([df1,df2], sort=False).sort_values(
    ['position'])

tmp.loc[~tmp['message'].isna(),'grade'] = 'grade A' + tmp.loc[
    ~tmp['message'].isna(),'message'].str[3]

tmp['grade']=tmp['grade'].fillna(method='ffill').fillna('grade A')

resul = tmp.loc[tmp.message.isna()].drop(columns=['message'])

对于您的示例数据，它给出了预期的结果：

index  position     grade
    0       125   grade A
    1       256  grade A1
    2       314  grade A2
    3       355  grade A2
    4       549  grade A3
    5       601  grade A2
    6       654  grade A1
    7       727  grade A1
    8      1100  grade A3
    9      1217  grade A3

网友

2楼 · 编辑于 2024-09-27 07:30:45

对于消息数据框中的每一行，我们添加下一条消息的位置，以便于比较：

messages = messages.join(messages['position'].shift(-1).rename('next_position'))

为数据中的每一行添加消息：

data['class'] = 0
for index, row in messages.iterrows():
  data.loc[data['position'].between(row['position'],row['next_position']),'class'] = row['message']

添加“边缘”案例：

data.loc[data['position'].between(0,messages['position'].min()),'class'] = 'msg'
data.loc[data['position'].between(messages['position'].max(),np.inf),'class'] = messages.iloc[-1]['message']

并用你的类替换消息

for message_code in data['class'].unique():
    data.replace(message_code,'A'+message_code.split('msg')[-1],inplace=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何根据数据帧中的值有条件地对数据分组？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >