如何对具有许多唯一值的分类变量进行热编码?

2024-06-01 09:07:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用熊猫进行数据集探索,我有一个近10000个游戏的数据集,其中包括出版商、开发者、评级等栏目。 如何在不使用Labelencode的情况下对具有3000多个唯一值的列(如Publisher)进行编码?如果我使用onehot Encoding,我的列数将爆炸,这是我想要避免的。有没有办法对这么多的值进行编码,并且仍然有合理数量的列


Tags: 数据游戏编码数量情况encodingpublisher开发者