PythonPandas轮流分解行

df = DataFrame([{'B1': '1C', 'B2': '', 'B3': '', }, {'B1': '3A', 'B2': '1A', 'B3': ''}, {'B1': '41A', 'B2': '28A', 'B3': '3A'}]) B1 B2 B3 0 1C 1 3A 1A 2 41A 28A 3A

B1 B2 B3 U1 U2 U3 0 1C C 1 3A 1A A 2 3A 1A A 3 41A 28A 3A A 4 41A 28A 3A A 5 41A 28A 3A A

1条回答

网友

1楼 · 发布于 2024-10-01 09:38:33

我认为，它需要三个步骤的解决方案

1）从数据中提取字母并创建新列

2）复制行w.r.t值和

3）单位矩阵掩蔽。你知道吗

df = pd.DataFrame([{'B1': '1C', 'B2': '', 'B3': '', },
            {'B1': '3A', 'B2': '1A', 'B3': ''},
            {'B1': '41A', 'B2': '28A', 'B3': '3A'}])

    B1  B2  B3
0   1C      
1   3A  1A  
2   41A 28A 3A

1）从行中提取字母并指定为列

df = df.merge(df.apply(lambda x: x.str.extract('([A-Za-z])')).add_prefix('U_'), left_index=True,right_index=True,how='outer')

输出：

  B1    B2  B3  U_B1    U_B2    U_B3
0   1C          C   NaN NaN
1   3A  1A      A   A   NaN
2   41A 28A 3A  A   A   A

2）您可以尝试数据帧的duplicating the rows，只要它的值大于1

# Duplicating the rows of dataframe
val = df[['U_B1','U_B2','U_B3']].notnull().sum(axis=1)
df1 = df.loc[np.repeat(val.index,val)]

->；3）然后通过使用索引分组，只选择masked values of identity matrix（np.标识）每组的w.r.t长度。你知道吗

df1[['U_B1','U_B2','U_B3']] = df1.groupby(df1.index)['U_B1','U_B2','U_B3'].apply(lambda x: x.dropna(axis=1).mask(np.identity(len(x))==0))

输出：

   B1   B2  B3  U_B1 U_B2 U_B3
0   1C          C       
1   3A  1A      A       
1   3A  1A          A   
2   41A 28A 3A  A       
2   41A 28A 3A      A   
2   41A 28A 3A          A

相关问题更多 >

编程相关推荐

热门问题

热门文章

PythonPandas轮流分解行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >