2024-06-01 09:23:35 发布
网友
我有两列具有高基数的分类值,一列(area\u id)有21878个唯一值,另一列(page\u entry)有800个唯一值。我正在建立一个预测ML模型来预测网页的点击率。你知道吗
列信息: 区域标识:会话期间访问的所有位置。(具有网页不同区域的位置代号)
页面输入:描述会话的登录页。你知道吗
如何将这两列从一个热编码改为数字编码?你知道吗
谢谢你。你知道吗
一种方法是使用业务规则将分类级别分组到更小的存储桶中。对于功能area_id,您可以简单地根据它们的地理位置对它们进行分组,例如,来自单个地区(或任何其他聚合级别)的所有area_ids将被单个id替换。类似地,对于page_entry,您可以根据一些属性(如网页的性质,如体育、旅游等)对类似的页面进行分组。通过这种方式,您可以显著减少变量的维数。你知道吗
area_id
area_ids
id
page_entry
希望这有帮助!你知道吗
一种方法是使用业务规则将分类级别分组到更小的存储桶中。对于功能
area_id
,您可以简单地根据它们的地理位置对它们进行分组,例如,来自单个地区(或任何其他聚合级别)的所有area_ids
将被单个id
替换。类似地,对于page_entry
,您可以根据一些属性(如网页的性质,如体育、旅游等)对类似的页面进行分组。通过这种方式,您可以显著减少变量的维数。你知道吗希望这有帮助!你知道吗
相关问题 更多 >
编程相关推荐