我的数据如下所示:
index stringColumn
0 A_B_B_B_C_C_D
1 A_B_C_D
2 B_C_D_E_F
3 A_E_F_F_F
我需要使用计数对这个stringColumn进行矢量化,结果是:
index A B C D E F
0 1 3 2 1 0 0
1 1 1 1 1 0 0
2 0 1 1 1 1 1
3 1 0 0 0 1 3
因此,我需要同时进行:计数和拆分。Pandas str.get_dummies()函数允许我使用sep=''.'参数拆分字符串,但是它不计算多个值。pd.get_dummies()进行计数,但不允许使用分隔符
我的数据量很大,所以我在寻找矢量化的解决方案,而不是循环
您可以将^{} 与^{} 和
sum
一起使用:或按^{} 计算每行的值,用^{} 替换缺少的值并转换为整数:
或者使用^{} ,性能应该非常好:
或通过^{} 重新塑造形状并通过^{} 计数:
相关问题 更多 >
编程相关推荐