我想用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的一个示例
变量1变量2
198 zcROj17IEC
336 DHeTmBftjz公司
252.3 crIgUHSK8h
252 ZSNrjIX0Db
我知道树对离散数据起作用(分类),但是Sklearn中的RandomForest是否需要先离散连续的数值数据,或者它可以处理它??对于分类字符串变量,我使用下面的代码将字符串编码为带有0和1的数值列
pandas.get_dummies(X['Var2'])
它是有效的,但对于数字我尝试了以下离散化
^{pr2}$但我一直收到一个错误的非唯一的箱子!在
我需要慎重考虑吗?我该怎么做?在
随机森林应该支持连续变量没有问题。请参见示例this sample。在
当你用你的绝对值做假人时,树木和森林的工作会更糟。在
你只需要给你的特征贴上标签就行了!在
相关问题 更多 >
编程相关推荐