Sklearn中随机森林的离散化连续变量

2024-10-01 00:30:03 发布

男 | 程序猿一只，喜欢编程写python代码。

我想用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字（连续）和分类（字符串）数据。这是数据集的一个示例

变量1变量2
198 zcROj17IEC 336 DHeTmBftjz公司 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树对离散数据起作用（分类），但是Sklearn中的RandomForest是否需要先离散连续的数值数据，或者它可以处理它？？对于分类字符串变量，我使用下面的代码将字符串编码为带有0和1的数值列

pandas.get_dummies(X['Var2'])

它是有效的，但对于数字我尝试了以下离散化

^{pr2}$

但我一直收到一个错误的非唯一的箱子！在

我需要慎重考虑吗？我该怎么做？在

Tags：数据字符串示例森林分类公司数字 sklearn

2条回答

网友

1楼 · 编辑于 2024-10-01 00:30:03

随机森林应该支持连续变量没有问题。请参见示例this sample。在

网友

2楼 · 编辑于 2024-10-01 00:30:03

当你用你的绝对值做假人时，树木和森林的工作会更糟。在

你只需要给你的特征贴上标签就行了！在