是否有任何方法可以使用python代码将值转换为列名,并根据下面的示例将它们标记为1或0
hobbytable在hobby列中有值,但某些单元格有多个以“/”分隔的值。 为了使用多元回归模型或其他模型,数据集的形状将更好,低于预期结果
如能分享示例代码以解决此问题,将不胜感激
hobbytable(CSV文件)
personID, hobby
x1234, baseball/soccer
y1234, reading/baseball
z1234, null
a1234, soccer
作为数据帧的预期结果
personID, baseball, soccer, reading, soccer
x1234, 1, 1, 0, 0
y1234, 1, 0, 1, 0
z1234, 0, 0, 0, 0
a1234, 0, 1, 0, 0
让我们尝试^{} 标记值&} 沿列索引将创建的
groupby
索引以减少数据帧^{dummies
与original dataframe
连接起来您可以尝试以下方法:
输出:
您可以在一行中完成:
解释:
.assign()
添加一列,这里我们用后面在输出表中看到的1填充它.pivot_table()
现在数据透视表基本上为您完成了主要工作,如果没有为某列找到persionID,它将有一个“nan”值因此
.fillna()
用于用0填充此“nan”值相关问题 更多 >
编程相关推荐