如何将高基数分类特征转换为数字以用于预测性机器学习模型?

2024-06-01 09:23:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两列具有高基数的分类值,一列(area\u id)有21878个唯一值,另一列(page\u entry)有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率。你知道吗

列信息: 区域标识:会话期间访问的所有位置。(具有网页不同区域的位置代号)

页面输入:描述会话的登录页。你知道吗

如何将这两列从一个热编码改为数字编码?你知道吗

谢谢你。你知道吗


Tags: 模型信息id区域网页page分类area
1条回答
网友
1楼 · 发布于 2024-06-01 09:23:35

一种方法是使用业务规则将分类级别分组到更小的存储桶中。对于功能area_id,您可以简单地根据它们的地理位置对它们进行分组,例如,来自单个地区(或任何其他聚合级别)的所有area_ids将被单个id替换。类似地,对于page_entry,您可以根据一些属性(如网页的性质,如体育、旅游等)对类似的页面进行分组。通过这种方式,您可以显著减少变量的维数。你知道吗

希望这有帮助!你知道吗

相关问题 更多 >