将pandas中的列值复制到非零单元格,并在i之后聚合列

2024-10-02 14:30:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样的数据帧

Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
  0    A          B   C          A    D    D    A    
  1    B          A              C    C    B         A
  2               C   D          

我想把它转换成

Index    P1         P2         P3
  0      A(P1W1)    A(P2W2)    A(P3W1)
  1      A(P1W3)    B(P2W4)    A(P3W2)
  2      B(P1W1)    C(P2W2)
  3      B(P1W3)    C(P2W3)
  4      C(P1W3)    D(P2W3)
  5      C(P1W4)    D(P2W4)
  6      D(P1W4)

基本上,我想从第一个数据帧中获取包含单元格值的列名,然后在p1p2级别对其进行聚合

如果需要任何澄清,请询问

我完全不知道如何处理这个问题,任何帮助都将不胜感激


Tags: 数据indexp1p3w1p1w3p1w2p1w4p2w2
1条回答
网友
1楼 · 发布于 2024-10-02 14:30:51

设置

txt = """\
Index P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
  0    A          B   C          A    D    D    A    
  1    B          A              C    C    B         A
  2               C   D            """

df = pd.read_fwf(pd.io.common.StringIO(txt), index_col=0).fillna('')
df

      P1W1 P1W2 P1W3 P1W4 P2W1 P2W2 P2W3 P2W4 P3W1 P3W2 P3W3 P3W4
Index                                                            
0        A         B    C         A    D    D    A               
1        B         A              C    C    B         A          
2                  C    D                                        

解决方案

d = df + df.columns.map(lambda c: f'({c})')
pd.concat({
    g: d.stack().reset_index(drop=True)
    for g, d in d.where(df.astype(bool)).groupby(
        lambda col: col[:2], 1
    )
}, axis=1).fillna('')

        P1       P2       P3
0  A(P1W1)  A(P2W2)  A(P3W1)
1  B(P1W3)  D(P2W3)  A(P3W2)
2  C(P1W4)  D(P2W4)         
3  B(P1W1)  C(P2W2)         
4  A(P1W3)  C(P2W3)         
5  C(P1W3)  B(P2W4)         
6  D(P1W4)                 

细节

添加用括号括起来的列

df + df.columns.map(lambda c: f'({c})')

          P1W1    P1W2     P1W3     P1W4    P2W1     P2W2     P2W3     P2W4     P3W1     P3W2    P3W3    P3W4
Index                                                                                                        
0      A(P1W1)  (P1W2)  B(P1W3)  C(P1W4)  (P2W1)  A(P2W2)  D(P2W3)  D(P2W4)  A(P3W1)   (P3W2)  (P3W3)  (P3W4)
1      B(P1W1)  (P1W2)  A(P1W3)   (P1W4)  (P2W1)  C(P2W2)  C(P2W3)  B(P2W4)   (P3W1)  A(P3W2)  (P3W3)  (P3W4)
2       (P1W1)  (P1W2)  C(P1W3)  D(P1W4)  (P2W1)   (P2W2)   (P2W3)   (P2W4)   (P3W1)   (P3W2)  (P3W3)  (P3W4)

使用遮罩在适当的地方制作NaN。这将使我们能够在理解范围内进行堆栈,并为了方便而删除NaN

d = df + df.columns.map(lambda c: f'({c})')
d.where(df.astype(bool))

          P1W1 P1W2     P1W3     P1W4 P2W1     P2W2     P2W3     P2W4     P3W1     P3W2 P3W3 P3W4
Index                                                                                            
0      A(P1W1)  NaN  B(P1W3)  C(P1W4)  NaN  A(P2W2)  D(P2W3)  D(P2W4)  A(P3W1)      NaN  NaN  NaN
1      B(P1W1)  NaN  A(P1W3)      NaN  NaN  C(P2W2)  C(P2W3)  B(P2W4)      NaN  A(P3W2)  NaN  NaN
2          NaN  NaN  C(P1W3)  D(P1W4)  NaN      NaN      NaN      NaN      NaN      NaN  NaN  NaN

按应用于我们选择的索引对象的lambda分组。我们将选择axis=1作为列的目标

相关问题 更多 >