在python中创建预测模型时,如何处理“country”和“age groups”等列?

2024-10-17 08:24:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我对机器学习非常陌生,当我在处理这个特定的数据框架时,我发现很难处理诸如年龄组和国家之类的重要列。你知道吗

以下是我使用的数据集的链接:

https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016

在更精确的数据预测中,“国家”和“年龄组”列非常重要。但我经常会犯这样的错误:

{ 
  could not convert string to float: '15-24 years' 
}

国家栏也差不多。你知道吗

我该怎么做才能使它们适合模型?你知道吗


Tags: to数据com机器框架链接wwwoverview
2条回答

你所说的数据是绝对的。 基本上,数据集中的数据主要是顺序(数字)或分类的。你知道吗

我建议您通过将分类变量转换为伪代码来处理这个问题。 例如,假设您有一个如下所示的数据帧

Id, Country
1, US
2, UK
3, Germany

将此代码转换为伪代码

Id, US, UK, Germany
1, 1,0,0
2, 0,1,0
3, 0,0,1

有多个包将分类数据转换为伪代码。我认为熊猫也有功能。你知道吗

然后可以使用上面的数据帧来训练您的模型

这些是机器学习模型的“分类”属性。通常,为分类属性分配一个整数值,以便ML模型能够处理它们。这是机器学习的一个主要主题,所以我所能做的就是建议你仔细阅读分类数据。也许this link或类似的方法会给你一个开始。你知道吗

相关问题 更多 >