取消列表中的列时保留空列表

import pandas as pd df = pd.DataFrame({'Result' : [['pos', '+', 'pos', 'positive'], ['neg', 'neg'], [], ['pos']], 'P_ID': [1,2,3,4], 'Gene' : [['kras', 'kras', 'kras', 'egfr'], ['brca', 'brca'], [], ['cd133']], 'N_ID' : ['A1', 'A2', 'A3', 'A4'] }) #rearrange columns df = df[['P_ID', 'N_ID', 'Gene', 'Result']] df P_ID N_ID Gene Result 0 1 A1 [kras, kras, kras, egfr] [pos, +, pos, positive] 1 2 A2 [brca, brca] [neg, neg] 2 3 A3 [] [] 3 4 A4 [cd133] [pos]

P_ID N_ID Gene Result 0 1 A1 kras pos 1 1 A1 kras + 2 1 A1 kras pos 3 1 A1 egfr positive 4 2 A2 brca neg 5 2 A2 brca neg 6 3 A3 brca neg 7 4 A4 cd133 pos

P_ID N_ID Gene Result 0 1 A1 kras pos 1 1 A1 kras + 2 1 A1 kras pos 3 1 A1 egfr positive 4 2 A2 brca neg 5 2 A2 brca neg 6 3 A3 [] [] 7 4 A4 cd133 pos

2条回答

网友
1楼 · 编辑于 2024-09-29 23:18:21

让我们试试堆叠和拆散魔法。这也会保留空列表。你知道吗
(df.set_index(['P_ID', 'N_ID']) .stack() .str.join(',') .str.split(',', expand=True) .stack() .unstack(-2) .reset_index(level=[0, 1]) .reset_index(drop=True)) P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 7 4 A4 pos cd133
细节
首先，将不被触摸的列设置为索引。你知道吗
df.set_index(['P_ID', 'N_ID']) Result Gene P_ID N_ID 1 A1 [pos, +, pos, positive] [kras, kras, kras, egfr] 2 A2 [neg, neg] [brca, brca] 3 A3 [] [] 4 A4 [pos] [cd133]
接下来，stack行。你知道吗
_.stack() P_ID N_ID 1 A1 Result [pos, +, pos, positive] Gene [kras, kras, kras, egfr] 2 A2 Result [neg, neg] Gene [brca, brca] 3 A3 Result [] Gene [] 4 A4 Result [pos] Gene [cd133] dtype: object
我们现在有一个系列。我们需要把这些元素分解成不同的列。所以，先加入列表，然后再拆分。假设列表元素本身不包含逗号（如果不包含逗号，请找到另一个分隔符进行连接和拆分）。你知道吗
_.str.join(',').str.split(',', expand=True) 0 1 2 3 P_ID N_ID 1 A1 Result pos + pos positive Gene kras kras kras egfr 2 A2 Result neg neg None None Gene brca brca None None 3 A3 Result None None None Gene None None None 4 A4 Result pos None None None Gene cd133 None None None
我们需要去掉空值，所以再次调用stack。你知道吗
_.stack() P_ID N_ID 1 A1 Result 0 pos 1 + 2 pos 3 positive Gene 0 kras 1 kras 2 kras 3 egfr 2 A2 Result 0 neg 1 neg Gene 0 brca 1 brca 3 A3 Result 0 Gene 0 4 A4 Result 0 pos Gene 0 cd133 dtype: object
我们快到了。现在我们希望索引的第二个最后一级成为我们的列，因此使用unstack(-2)（unstack在第二个最后一级上取消堆栈）
_.unstack(-2) Result Gene P_ID N_ID 1 A1 0 pos kras 1 + kras 2 pos kras 3 positive egfr 2 A2 0 neg brca 1 neg brca 3 A3 0 4 A4 0 pos cd133
最后，一些管家，以获得我们原来的专栏。你知道吗
_.reset_index(-1, drop=True).reset_index() P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 7 4 A4 pos cd133
如果希望空格实际上是列表，请使用applymap：
_.applymap(lambda x: x if x != '' else [])) P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 [] [] 7 4 A4 pos cd133

网友
2楼 · 编辑于 2024-09-29 23:18:21

调整后unnesting仍适用于它
df=df.applymap(lambda x : [''] if x==[] else x) unnesting(df,['Gene','Result']) Out[20]: Gene Result N_ID P_ID 0 kras pos A1 1 0 kras + A1 1 0 kras pos A1 1 0 egfr positive A1 1 1 brca neg A2 2 1 brca neg A2 2 2 A3 3 3 cd133 pos A4 4

相关问题更多 >

编程相关推荐

热门问题

热门文章