擅长:python、mysql、java
<p>在模型是随机森林(RF)的管道中包含特征选择并不一定有意义。这是因为RF模型的<code>max_depth</code>和<code>max_features</code>参数基本上控制了构建单个树时包含的特性数量(最大深度<code>n</code>只是说,您的林中的每棵树都将为<code>n</code>节点构建,每个节点都有一个由<code>max_features</code>数量的功能组合组成的拆分)。选中<a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html" rel="noreferrer">https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html</a>。在</p>
<p>您可以简单地调查您的培训模型中排名靠前的功能。当训练一棵单独的树时,可以计算出每个特征减少树中加权杂质的程度。对于一个森林,每个特征的杂质减少量可以取平均值,并根据该度量对特征进行排序。因此,实际上不需要为不同的特性集重新训练林,因为特性重要性(已经在<code>sklearn</code>模型中计算)告诉了您需要的所有信息。在</p>
<hr/>
<p>{cds>搜索树不会浪费更多的时间。更多的树意味着更多的计算开销,在一定数量的树之后,改进太小了,所以您可能需要担心这个问题,但否则您将从大量n_估计器中获得性能,并且您也不会真正陷入过度拟合的麻烦。在</p>