在最大范围内过滤

name start end cat 0 coumadin 0 8 DRUG 1 albuterol 18 27 DRUG 2 albuterol sulfate 18 35 DRUG 3 sulfate 28 35 DRUG 4 2.5 36 39 STRENGTH 5 2.5 mg 36 42 STRENGTH 6 2.5 mg /3 ml 36 48 STRENGTH 7 0.083 50 55 STRENGTH 8 0.083 % 50 57 STRENGTH 9 2.5 mg /3 ml (0.083 %) 36 58 STRENGTH 10 solution 59 67 FORM 11 solution for nebulization 59 84 FORM 12 nebulization 72 84 ROUTE 13 one (1) 90 97 FREQUENCY 14 neb 98 101 ROUTE 15 neb inhalation 98 112 ROUTE 16 inhalation 102 112 ROUTE 17 q4h 113 116 FREQUENCY 18 every 118 123 FREQUENCY 19 every 4 hours 118 131 FREQUENCY 20 q4h (every 4 hours) 113 132 FREQUENCY 21 q4h (every 4 hours) as needed 113 142 FREQUENCY 22 as needed 133 142 FREQUENCY 23 dyspnea 147 154 REASON

name start end cat 0 coumadin 0 8 DRUG 2 albuterol sulfate 18 35 DRUG 9 2.5 mg /3 ml (0.083 %) 36 58 STRENGTH 11 solution for nebulization 59 84 FORM 13 one (1) 90 97 FREQUENCY 15 neb inhalation 98 112 ROUTE 21 q4h (every 4 hours) as needed 113 142 FREQUENCY 23 dyspnea 147 154 REASON

0 1 2 3 0 coumadin 0 8 DRUG 2 albuterol sulfate 18 35 DRUG 1 albuterol 18 27 DRUG 3 sulfate 28 35 DRUG 9 2.5 mg /3 ml (0.083 %) 36 58 STRENGTH 6 2.5 mg /3 ml 36 48 STRENGTH 5 2.5 mg 36 42 STRENGTH 4 2.5 36 39 STRENGTH 8 0.083 % 50 57 STRENGTH 7 0.083 50 55 STRENGTH 11 solution for nebulization 59 84 FORM 10 solution 59 67 FORM 12 nebulization 72 84 ROUTE 13 one (1) 90 97 FREQUENCY 15 neb inhalation 98 112 ROUTE 14 neb 98 101 ROUTE 16 inhalation 102 112 ROUTE 21 q4h (every 4 hours) as needed 113 142 FREQUENCY 20 q4h (every 4 hours) 113 132 FREQUENCY 17 q4h 113 116 FREQUENCY 19 every 4 hours 118 131 FREQUENCY 18 every 118 123 FREQUENCY 22 as needed 133 142 FREQUENCY 23 dyspnea 147 154 REASON

1条回答

网友
1楼 · 发布于 2024-10-05 14:21:49

我在你的df样品上试过这个：
创建示例数据框：
import pandas as pd Name = ['coumadin','albuterol','albuterol sulfate','sulfate'] Cat = ['D', 'D', 'D', 'D'] Start = [0, 18, 18, 28] End = [8, 27, 33,35] ID = [1,2,3,4] df = pd.DataFrame(data = list(zip(ID,Name,Start,End,Cat)), \ columns=['ID','Name','Start','End','Cat'])
做一个有助于识别相似名字的函数
def matcher(x): res = df.loc[df['Name'].str.contains(x, regex=False, case=False), 'ID'] return ','.join(res.astype(str))
将此函数应用于列的值
df['Matches'] = df['Name'].apply(matcher) ##Matches will contain the ID of rows which are similar and have only 1 value which are absolute. ID Name Start End Cat Matches 0 1 coumadin 0 8 D 1 1 2 albuterol 18 27 D 2,3 2 3 albuterol sulfate 18 33 D 3 3 4 sulfate 28 35 D 3,4
计算进入匹配项的行数
df['Count'] = df.Matches.apply(lambda x: len(x.split(',')))
将“Count”为1的df保留为包含其他行的行：
df = df[df.Count == 1] ID Name Start End Cat Matches Count 0 1 coumadin 0 8 D 1 1 2 3 albuterol sulfate 18 33 D 3 1
然后可以删除不必要的列：）

相关问题更多 >

编程相关推荐

热门问题

热门文章