我对机器学习非常陌生,当我在处理这个特定的数据框架时,我发现很难处理诸如年龄组和国家之类的重要列。你知道吗
以下是我使用的数据集的链接:
https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016
在更精确的数据预测中,“国家”和“年龄组”列非常重要。但我经常会犯这样的错误:
{
could not convert string to float: '15-24 years'
}
国家栏也差不多。你知道吗
我该怎么做才能使它们适合模型?你知道吗
Tags:
你所说的数据是绝对的。 基本上,数据集中的数据主要是顺序(数字)或分类的。你知道吗
我建议您通过将分类变量转换为伪代码来处理这个问题。 例如,假设您有一个如下所示的数据帧
将此代码转换为伪代码
有多个包将分类数据转换为伪代码。我认为熊猫也有功能。你知道吗
然后可以使用上面的数据帧来训练您的模型
这些是机器学习模型的“分类”属性。通常,为分类属性分配一个整数值,以便ML模型能够处理它们。这是机器学习的一个主要主题,所以我所能做的就是建议你仔细阅读分类数据。也许this link或类似的方法会给你一个开始。你知道吗
相关问题 更多 >
编程相关推荐