Sklearn中随机森林的离散化连续变量

2024-10-01 00:30:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的一个示例

变量1变量2
198 zcROj17IEC 336 DHeTmBftjz公司 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树对离散数据起作用(分类),但是Sklearn中的RandomForest是否需要先离散连续的数值数据,或者它可以处理它??对于分类字符串变量,我使用下面的代码将字符串编码为带有0和1的数值列

pandas.get_dummies(X['Var2'])

它是有效的,但对于数字我尝试了以下离散化

^{pr2}$

但我一直收到一个错误的非唯一的箱子!在

我需要慎重考虑吗?我该怎么做?在


Tags: 数据字符串示例森林分类公司数字sklearn
2条回答

随机森林应该支持连续变量没有问题。请参见示例this sample。在

当你用你的绝对值做假人时,树木和森林的工作会更糟。在

你只需要给你的特征贴上标签就行了!在

相关问题 更多 >