2024-05-20 20:20:44 发布
网友
我是数据科学领域的新手
我有一个数据集,既有数字数据也有字符串数据。有趣的是,这两种类型的数据对结果都有意义。如何从数据集中选择相关特征
我应该使用LabelEncoder并将数据从字符串转换为数字,然后继续相关吗?我走的路对吗?有没有更好的办法来解决这场危机
这是一种逃避,但你可以简单地使用一个随机森林,愉快地混合数字和分类数据。在OneHotEncoding上使用LabelEncoder编码将允许您使用更广泛的算法
如果对可用值进行有意义的排序,并确保在编码中保留排序,则可以使用标签编码对分类变量进行编码。有关示例,请参见here
如果没有排序(或者解决一个有意义的排序太麻烦),您可以使用一个热编码。但是,这将根据数据集中特征的不同值按比例增加特征集
如果一个hot生成一个非常大的特征集,并且分类字符串数据是自然语言单词,那么您可能需要使用预训练嵌入
无论哪种方式,您都可以将编码的分类列连接到连续特征集,然后继续学习和特征选择
这是一种逃避,但你可以简单地使用一个随机森林,愉快地混合数字和分类数据。在OneHotEncoding上使用LabelEncoder编码将允许您使用更广泛的算法
如果对可用值进行有意义的排序,并确保在编码中保留排序,则可以使用标签编码对分类变量进行编码。有关示例,请参见here
如果没有排序(或者解决一个有意义的排序太麻烦),您可以使用一个热编码。但是,这将根据数据集中特征的不同值按比例增加特征集
如果一个hot生成一个非常大的特征集,并且分类字符串数据是自然语言单词,那么您可能需要使用预训练嵌入
无论哪种方式,您都可以将编码的分类列连接到连续特征集,然后继续学习和特征选择
相关问题 更多 >
编程相关推荐