如何使用groupby和filter数据框创建新列

Heart Rate Hours Icustay Inclusion Criteria 0 79 0.0 1001 0 1 91 1.5 1001 0 2 NaN 2.7 1001 0 3 85 3.4 1001 0 4 90 0.0 2010 0 5 94 29.4 2010 0 6 68 0.0 3005 0

Heart Rate Hours Icustay Inclusion Criteria 0 79 0.0 1001 0 1 91 1.5 1001 1 2 NaN 2.7 1001 1 3 85 3.4 1001 1 4 90 0.0 2010 1 5 94 29.4 2010 1 6 68 0.0 3005 0

import numpy as np import pandas as pd d = {'Icustay': [1001, 1001, 1001, 1001, 2010, 2010, 3005], 'Hours': [0, 1.5, 2.7, 3.4, 0, 29.4, 0], 'Heart Rate': [79, 91, np.NaN, 85, 90, 94, 68], 'Inclusion Criteria':[0, 0, 0, 0, 0, 0, 0]} all_records = pd.DataFrame(data=d) for curr in np.unique(all_records['Icustay']): print(curr) curr_stay = all_records[all_records['Icustay']==curr] indexes = curr_stay['Hours'].index heart_rate_flag = False heart_rate_begin_time = 0 heart_rate_begin_index = 0 for i in indexes: if(curr_stay['Heart Rate'][i] >= 90 and not heart_rate_flag): heart_rate_flag = True heart_rate_begin_time = curr_stay['Hours'][i] heart_rate_begin_index = i elif(curr_stay['Heart Rate'][i] < 90): heart_rate_flag = False elif(heart_rate_flag and curr_stay['Hours'][i]-heart_rate_begin_time >= 1.0): all_records['Inclusion Criteria'].iloc[indexes[indexes>=heart_rate_begin_index]] = 1 break

2条回答

网友

1楼 · 编辑于 2024-06-28 11:42:26

您可以在pandas中使用groupby和apply函数。这也应该更快。你知道吗

## fill missing values 
all_records['Heart Rate'].fillna(90, inplace=True)

## use apply
all_records['Inclusion Criteria'] = all_records.groupby('Icustay').apply(lambda x: (x['Heart Rate'].ge(90)) & (x['Hours'].ge(0))).values.astype(int)

print(all_records)

   Heart Rate  Hours  Icustay  Inclusion Criteria
0        79.0    0.0     1001                   0
1        91.0    1.5     1001                   1
2        97.0    2.7     1001                   1
3        90.0    3.4     1001                   1
4        90.0    0.0     2010                   1
5        94.0   29.4     2010                   1
6        68.0    0.0     3005                   0

网友

2楼 · 编辑于 2024-06-28 11:42:26

这看起来有点难看，但它避免了循环和apply（本质上只是引擎盖下的一个循环）。我还没有在一个大的数据集上进行测试，但我怀疑它会比您当前的代码快得多。你知道吗

首先，创建一些额外的列，其中包含下一行/上一行的详细信息，因为这可能与您的某些条件有关：

all_records['PrevHeartRate'] = all_records['Heart Rate'].shift()
all_records['NextHours'] = all_records['Hours'].shift(-1)
all_records['PrevICU'] = all_records['Icustay'].shift()
all_records['NextICU'] = all_records['Icustay'].shift(-1)

接下来，创建一个数据帧，其中包含每个id的第一条符合条件的记录（由于涉及大量的逻辑，这现在非常混乱）：

first_per_id = (all_records[((all_records['Heart Rate'] >= 90) |
                            ((all_records['Heart Rate'].isnull()) & 
                            (all_records['PrevHeartRate'] >= 90) &
                            (all_records['Icustay'] == all_records['PrevICU']))) &
                            ((all_records['Hours'] >= 1) |
                            ((all_records['NextHours'] >= 1) &
                            (all_records['NextICU'] == all_records['Icustay'])))]
                .drop_duplicates(subset='Icustay', keep='first')[['Icustay']]
                .reset_index()
                .rename(columns={'index': 'first_index'}))

这给了我们：

   first_index  Icustay
0            1     1001
1            4     2010

现在可以从原始数据帧中删除所有新列：

all_records.drop(['PrevHeartRate', 'NextHours', 'PrevICU', 'NextICU'], axis=1, inplace=True)

然后我们可以将其与原始数据帧合并：

new = pd.merge(all_records, first_per_id, how='left', on='Icustay')

给予：

   Heart Rate  Hours  Icustay  Inclusion Criteria  first_index
0        79.0    0.0     1001                   0          1.0
1        91.0    1.5     1001                   0          1.0
2        97.0    2.7     1001                   0          1.0
3         NaN    3.4     1001                   0          1.0
4        90.0    0.0     2010                   0          4.0
5        94.0   29.4     2010                   0          4.0
6        68.0    0.0     3005                   0          NaN

从这里我们可以比较“第一个索引”（这是该id的第一个合格索引）和实际索引：

new['Inclusion Criteria'] = new.index >= new['first_index']

这将提供：

       Heart Rate  Hours  Icustay  Inclusion Criteria  first_index
0        79.0    0.0     1001               False          1.0
1        91.0    1.5     1001                True          1.0
2        97.0    2.7     1001                True          1.0
3         NaN    3.4     1001                True          1.0
4        90.0    0.0     2010                True          4.0
5        94.0   29.4     2010                True          4.0
6        68.0    0.0     3005               False          NaN

从这里开始，我们只需要整理一下（将结果列转换为整数，并删除第一个索引列）：

new.drop('first_index', axis=1, inplace=True)
new['Inclusion Criteria'] = new['Inclusion Criteria'].astype(int)

给出最终预期结果：

       Heart Rate  Hours  Icustay  Inclusion Criteria
0        79.0    0.0     1001                   0
1        91.0    1.5     1001                   1
2        97.0    2.7     1001                   1
3         NaN    3.4     1001                   1
4        90.0    0.0     2010                   1
5        94.0   29.4     2010                   1
6        68.0    0.0     3005                   0

相关问题更多 >

编程相关推荐

热门问题

热门文章