基于Pandas参考框架的di

rawdata= {'id':['json','molly','tina','jake','molly'],'entity':['present','absent','absent','present','present'],'entity2':['present','present','present','absent','absent'],'entity3':['absent','absent','absent','present','absent']} df= pd.DataFrame(rawdata) df.set_index('id') entity entity2 entity3 id json present present absent molly absent present absent tina absent present absent jake present absent present molly present absent absent

entity_exp1 entity2_exp1 entity2_exp2 entity3_exp1 entity3_exp2 entity3_exp3 id json present present present absent absent absent molly absent present present absent absent absent tina absent present present absent absent absent jake present absent absent present present present molly present absent absent absent absent absent

3条回答

网友

1楼 · 编辑于 2024-09-25 02:25:43

您可以简单地循环：

rawdata= {'id':['json','molly','tina','jake','molly'],
          'entity':['present','absent','absent','present','present'],
          'entity2':['present','present','present','absent','absent'],
          'entity3':['absent','absent','absent','present','absent']}
df= pd.DataFrame(rawdata)
df.set_index('id')
ref_dict= {'entity':['entity_exp1'],
           'entity2':['entity2_exp1','entity2_exp2'],
           'entity3':['entity3_exp1','entity3_exp2','entity3_exp3']}

# here comes the new part:
df2 = pd.DataFrame()
for key, val in sorted(ref_dict.items()):
    for subval in val:
        df2[subval] = df[key]

df2['id'] = df['id']
df2.set_index('id', inplace=True)

print(df2)
      entity_exp1 entity2_exp1 entity2_exp2 entity3_exp1 entity3_exp2  entity3_exp3  
id                                                                      
json      present      present      present       absent       absent        absent   
molly      absent      present      present       absent       absent        absent   
tina       absent      present      present       absent       absent        absent   
jake      present       absent       absent      present      present       present    
molly     present       absent       absent       absent       absent        absent

网友

2楼 · 编辑于 2024-09-25 02:25:43

选项1
在字典理解中使用pd.concat

pd.concat({k: df[v] for v, l in ref_dict.items() for k in l}, axis=1)

      entity2_exp1 entity2_exp2 entity3_exp1 entity3_exp2 entity3_exp3 entity_exp1
id                                                                                
json       present      present       absent       absent       absent     present
molly      present      present       absent       absent       absent      absent
tina       present      present       absent       absent       absent      absent
jake        absent       absent      present      present      present     present
molly       absent       absent       absent       absent       absent     present

选项2
切片数据帧并重命名列

^{pr2}$

网友

3楼 · 编辑于 2024-09-25 02:25:43

您可以使用dict键作为列名重新编制df的索引，然后使用dict的值重命名列

df_new = df.reindex(columns=sum([[k]*len(v) for k,v in ref_dict.items()],[]))
df_new.columns=sum(ref_dict.values(),[])
df_new
Out[573]: 
  entity_exp1 entity2_exp1 entity2_exp2 entity3_exp1 entity3_exp2 entity3_exp3
0     present      present      present       absent       absent       absent
1      absent      present      present       absent       absent       absent
2      absent      present      present       absent       absent       absent
3     present       absent       absent      present      present      present
4     present       absent       absent       absent       absent       absent

相关问题更多 >

编程相关推荐

热门问题

热门文章