减少600级唯一因子变量B的最佳方法是什么

2024-09-22 16:42:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个1000+级别的因子,我想在建模售价之前将其降低到50以下。推荐的方法有哪些

我已通过删除运算符错误、对易于识别的模型重叠进行分组以及过滤计数小于50的模型,减少了唯一模型的总数。我应该尝试多个k均值聚类,还是减少级别数的最佳方法

我的数据集如下所示:

    data = {'Brand':['VW', 'Ford', 'VW', 'Skoda','Mercedes'], 
        'model':['Polo','Fiesta','Golf','Octavia','E-class'],
        'Engine_size':[1,1.2,1.6,1.6,2.4],
        'Km':[50000,90000,120000,30000,80000],
        'hp':[95,105,140,140, 260],
        'reg_year':[2016,2014,2011,2017, 2015]
        }

理想情况下,我想要这样的东西

    data = {'Brand':['VW', 'Ford', 'VW', 'Skoda','Mercedes'], 
        'model':['Polo','Fiesta','Golf','Octavia','E-class'],
        'model_group':[1,1,2,2,3],
        'Engine_size':[1,1.2,1.6,1.6,2.4],
        'Km':[50000,90000,120000,30000,80000],
        'hp':[95,105,140,140, 260],
        'reg_year':[2016,2014,2011,2017, 2015]
        }

Tags: 方法模型datamodel级别mercedesclassvw