在虚构的患者数据集中,可能会遇到下表:
pd.DataFrame({
"Patients": ["Luke", "Nigel", "Sarah"],
"Disease": ["Cooties", "Dragon Pox", "Greycale & Cooties"]
})
将呈现以下数据集:
现在,假设有多个疾病的行使用相同的模式(用字符分隔,在这个上下文中是&
),并且存在一个完整的疾病列表diseases
,我还没有找到一个简单的解决方案来应用于这些情况^{
如何以最简单的方式从初始数据帧获得以下二进制矢量化?你知道吗
pd.DataFrame({
"Patients": ["Luke", "Nigel", "Sarah"],
"Cooties":[1, 0, 1],
"Dragon Pox":[0, 1, 0],
"Greyscale":[0, 0, 1]
})
我们可以使用this函数将字符串取消到行。你知道吗
之后,我们将^{} 与
aggfunc=len
一起使用:链接答案中使用的函数:
方案1
您可以检查循环中
disease
中df['Disease']
的出现情况:方案2
或者,在用
'& '
分割df['Disease']
中的字符串之后,可以使用.get_dummies
。你知道吗可以使用Series.str.get_dummies和右分隔符
相关问题 更多 >
编程相关推荐