匹配2个不同数据帧但长度不同的列值

2024-06-28 00:26:25 发布

您现在位置:Python中文网/ 问答频道 /正文

CHECK DATASET IMAGE

我一共有2个数据集,其中dataset1有大约40个条目的PATIENTID列,另一个dataset2有大约700个条目的PATIENTID列

我想检查dataset1的PATIENTID是否存在于dataset2中。你知道吗

我在pythonjupyter笔记本中尝试过,但它不能通过Python代码工作。你知道吗

PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
PatientsNotTreated

我得到错误:

PatientsNotTreated=unique(Datase1.PatientID)[!unique(Dataset1.PatientID) in unique(Dataset2.PatientID)]
                                                     ^
    SyntaxError: invalid syntax

我期望patientID的输出在daTASET2中不存在


Tags: 数据代码in目的笔记本uniquedataset1dataset2
1条回答
网友
1楼 · 发布于 2024-06-28 00:26:25

使用Series.isinDataFrame.loc生成boolena indexing。最后使用Series.unique

arr_out=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()

arr_in=Dataset1.loc[Dataset1['PatientID'].isin(Dataset2['PatientID']),'PatientID'].unique()

要根据患者用途筛选数据集1:

Dataset1_filtered=Dataset1.loc[~Dataset1['PatientID'].isin(Dataset2['PatientID'])]

相关问题 更多 >