我有一个1000+级别的因子,我想在建模售价之前将其降低到50以下。推荐的方法有哪些
我已通过删除运算符错误、对易于识别的模型重叠进行分组以及过滤计数小于50的模型,减少了唯一模型的总数。我应该尝试多个k均值聚类,还是减少级别数的最佳方法
我的数据集如下所示:
data = {'Brand':['VW', 'Ford', 'VW', 'Skoda','Mercedes'],
'model':['Polo','Fiesta','Golf','Octavia','E-class'],
'Engine_size':[1,1.2,1.6,1.6,2.4],
'Km':[50000,90000,120000,30000,80000],
'hp':[95,105,140,140, 260],
'reg_year':[2016,2014,2011,2017, 2015]
}
理想情况下,我想要这样的东西
data = {'Brand':['VW', 'Ford', 'VW', 'Skoda','Mercedes'],
'model':['Polo','Fiesta','Golf','Octavia','E-class'],
'model_group':[1,1,2,2,3],
'Engine_size':[1,1.2,1.6,1.6,2.4],
'Km':[50000,90000,120000,30000,80000],
'hp':[95,105,140,140, 260],
'reg_year':[2016,2014,2011,2017, 2015]
}
目前没有回答
相关问题 更多 >
编程相关推荐