取消列表中的列时保留空列表问题的回答

取消列表中的列时保留空列表

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

背景 我有以下数据帧 <pre><code>import pandas as pd df = pd.DataFrame({'Result' : [['pos', '+', 'pos', 'positive'], ['neg', 'neg'], [], ['pos']], 'P_ID': [1,2,3,4], 'Gene' : [['kras', 'kras', 'kras', 'egfr'], ['brca', 'brca'], [], ['cd133']], 'N_ID' : ['A1', 'A2', 'A3', 'A4'] }) #rearrange columns df = df[['P_ID', 'N_ID', 'Gene', 'Result']] df P_ID N_ID Gene Result 0 1 A1 [kras, kras, kras, egfr] [pos, +, pos, positive] 1 2 A2 [brca, brca] [neg, neg] 2 3 A3 [] [] 3 4 A4 [cd133] [pos] </code></pre> 我使用以下取自<a href="https://stackoverflow.com/questions/56410811/unnest-explode-multiple-list-2-0">unnest (explode) multiple list 2.0</a>的代码 <pre><code>df.set_index('P_ID').apply(lambda x: x.apply(pd.Series).stack()).ffill().reset_index().drop('level_1', 1) </code></pre> 问题 使用上面的代码，我接近我想要的。但是，因为第三行中的<code>Gene</code>和<code>Result</code>列是空列表<code>[]</code>，所以我得到了上面行的输出，如下所示： <pre><code> P_ID N_ID Gene Result 0 1 A1 kras pos 1 1 A1 kras + 2 1 A1 kras pos 3 1 A1 egfr positive 4 2 A2 brca neg 5 2 A2 brca neg 6 3 A3 brca neg 7 4 A4 cd133 pos </code></pre> 相反，我想得到下面的输出，其中下面的行<code>6 3 A3 [] []</code>反映了原始数据帧<code>df</code>，其中包含空列表 所需输出 <pre><code> P_ID N_ID Gene Result 0 1 A1 kras pos 1 1 A1 kras + 2 1 A1 kras pos 3 1 A1 egfr positive 4 2 A2 brca neg 5 2 A2 brca neg 6 3 A3 [] [] 7 4 A4 cd133 pos </code></pre> 问题 如何获得所需的输出？你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

让我们试试堆叠和拆散魔法。这也会保留空列表。你知道吗 <pre><code>(df.set_index(['P_ID', 'N_ID']) .stack() .str.join(',') .str.split(',', expand=True) .stack() .unstack(-2) .reset_index(level=[0, 1]) .reset_index(drop=True)) P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 7 4 A4 pos cd133 </code></pre> <hr/> 细节 首先，将不被触摸的列设置为索引。你知道吗 <pre><code>df.set_index(['P_ID', 'N_ID']) Result Gene P_ID N_ID 1 A1 [pos, +, pos, positive] [kras, kras, kras, egfr] 2 A2 [neg, neg] [brca, brca] 3 A3 [] [] 4 A4 [pos] [cd133] </code></pre> 接下来，<code>stack</code>行。你知道吗 <pre><code>_.stack() P_ID N_ID 1 A1 Result [pos, +, pos, positive] Gene [kras, kras, kras, egfr] 2 A2 Result [neg, neg] Gene [brca, brca] 3 A3 Result [] Gene [] 4 A4 Result [pos] Gene [cd133] dtype: object </code></pre> 我们现在有一个系列。我们需要把这些元素分解成不同的列。所以，先加入列表，然后再拆分。假设列表元素本身不包含逗号（如果不包含逗号，请找到另一个分隔符进行连接和拆分）。你知道吗 <pre><code>_.str.join(',').str.split(',', expand=True) 0 1 2 3 P_ID N_ID 1 A1 Result pos + pos positive Gene kras kras kras egfr 2 A2 Result neg neg None None Gene brca brca None None 3 A3 Result None None None Gene None None None 4 A4 Result pos None None None Gene cd133 None None None </code></pre> 我们需要去掉空值，所以再次调用<code>stack</code>。你知道吗 <pre><code>_.stack() P_ID N_ID 1 A1 Result 0 pos 1 + 2 pos 3 positive Gene 0 kras 1 kras 2 kras 3 egfr 2 A2 Result 0 neg 1 neg Gene 0 brca 1 brca 3 A3 Result 0 Gene 0 4 A4 Result 0 pos Gene 0 cd133 dtype: object </code></pre> 我们快到了。现在我们希望索引的第二个最后一级成为我们的列，因此使用<code>unstack(-2)</code>（<code>unstack</code>在第二个最后一级上取消堆栈） <pre><code>_.unstack(-2) Result Gene P_ID N_ID 1 A1 0 pos kras 1 + kras 2 pos kras 3 positive egfr 2 A2 0 neg brca 1 neg brca 3 A3 0 4 A4 0 pos cd133 </code></pre> 最后，一些管家，以获得我们原来的专栏。你知道吗 <pre><code>_.reset_index(-1, drop=True).reset_index() P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 7 4 A4 pos cd133 </code></pre> 如果希望空格实际上是列表，请使用<code>applymap</code>： <pre><code>_.applymap(lambda x: x if x != '' else [])) P_ID N_ID Result Gene 0 1 A1 pos kras 1 1 A1 + kras 2 1 A1 pos kras 3 1 A1 positive egfr 4 2 A2 neg brca 5 2 A2 neg brca 6 3 A3 [] [] 7 4 A4 pos cd133 </code></pre>

取消列表中的列时保留空列表

1 个回答

相关Python问题