在python中创建预测模型时，如何处理“country”和“age groups”等列？ - 问答 - Python中文网

在python中创建预测模型时，如何处理“country”和“age groups”等列？

2024-10-17 08:24:57 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我对机器学习非常陌生，当我在处理这个特定的数据框架时，我发现很难处理诸如年龄组和国家之类的重要列。你知道吗

以下是我使用的数据集的链接：

https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016

在更精确的数据预测中，“国家”和“年龄组”列非常重要。但我经常会犯这样的错误：

{ 
  could not convert string to float: '15-24 years' 
}

国家栏也差不多。你知道吗

我该怎么做才能使它们适合模型？你知道吗

Tags： to 数据 com 机器框架链接 www overview

2条回答

网友

1楼 · 编辑于 2024-10-17 08:24:57

你所说的数据是绝对的。基本上，数据集中的数据主要是顺序（数字）或分类的。你知道吗

我建议您通过将分类变量转换为伪代码来处理这个问题。例如，假设您有一个如下所示的数据帧

Id, Country
1, US
2, UK
3, Germany

将此代码转换为伪代码

Id, US, UK, Germany
1, 1,0,0
2, 0,1,0
3, 0,0,1

有多个包将分类数据转换为伪代码。我认为熊猫也有功能。你知道吗

然后可以使用上面的数据帧来训练您的模型

网友

2楼 · 编辑于 2024-10-17 08:24:57

这些是机器学习模型的“分类”属性。通常，为分类属性分配一个整数值，以便ML模型能够处理它们。这是机器学习的一个主要主题，所以我所能做的就是建议你仔细阅读分类数据。也许this link或类似的方法会给你一个开始。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章