Pandas:从包含300000行的数据帧中筛选14000行

2024-09-30 12:21:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据帧df1,由14000个人id组成。我有另一个数据帧df2,由300000个id和其他属性的数据组成。我需要将df1的14000 id与df2的300000 id进行匹配,并提取这14000 id的整行

df1 personUuid
0   99afae32-1486-47db-825e-6695f742eb86
1   bb22ca94-1f4b-435c-98ff-bd6f02a6b42b
2   ecfdc560-cc97-4525-8d1e-e3536793ef6e
3   8fbe1e4f-ae1e-4949-afd9-b120f6ae3762
4   d83dc0c4-26e6-4126-926d-7b84913bca13
... ...
14367   23592455-47a2-47ef-9d21-a283ae50988d
14368   1adecd7e-a0c2-4c35-bef1-75569f3b57fe
14369   e96f6eb4-d823-47b4-bd03-755e8f685e8f
14370   c87156e2-9610-40f4-a75a-17435d9fa91f
14371   70f08fd1-c595-4d01-886d-ed586a77c1d1


personUuid  firstName   middleName  lastName    emails  urls    locations   currentTitles   currentCompanies    education   ... count_currentTitles fullName    li_clean    gh_clean    tw_clean    fb_clean    email_clean email_clean1    email_clean2    email_clean3
0   ab92fa98-2427-461d-87ac-31a440b6e1ae    
1   658c57b9-457a-4e97-8b1c-10ab45655518    
2   7da5a858-3c20-46c0-b728-23e64352094d    
3   9c14f2b6-a81a-49af-85d4-d4cf76001f07    

类似地,我有第二个数据帧,其中包含300K个人ID和属性,如全名、电子邮件、位置等

需要将这些14K ID与300K匹配,并仅显示14K的所有属性


Tags: 数据cleanid属性emaildf1df2currenttitles
1条回答
网友
1楼 · 发布于 2024-09-30 12:21:25

您需要使用内部联接进行合并,如下所示:

df1['personUuid'] = df1['personUuid'].str.strip()
df2['personUuid'] = df2['personUuid'].str.strip()
df = pd.merge(left=df1, right=df2, how='inner', on=['personUuid'])

相关问题 更多 >

    热门问题