混合数据集的特征选择

2024-05-20 20:20:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我是数据科学领域的新手

我有一个数据集,既有数字数据也有字符串数据。有趣的是,这两种类型的数据对结果都有意义。如何从数据集中选择相关特征

我应该使用LabelEncoder并将数据从字符串转换为数字,然后继续相关吗?我走的路对吗?有没有更好的办法来解决这场危机


Tags: 数据字符串类型数字科学特征领域意义
1条回答
网友
1楼 · 发布于 2024-05-20 20:20:44

这是一种逃避,但你可以简单地使用一个随机森林,愉快地混合数字和分类数据。在OneHotEncoding上使用LabelEncoder编码将允许您使用更广泛的算法

网友
2楼 · 发布于 2024-05-20 20:20:44

如果对可用值进行有意义的排序,并确保在编码中保留排序,则可以使用标签编码对分类变量进行编码。有关示例,请参见here

如果没有排序(或者解决一个有意义的排序太麻烦),您可以使用一个热编码。但是,这将根据数据集中特征的不同值按比例增加特征集

如果一个hot生成一个非常大的特征集,并且分类字符串数据是自然语言单词,那么您可能需要使用预训练嵌入

无论哪种方式,您都可以将编码的分类列连接到连续特征集,然后继续学习和特征选择

相关问题 更多 >