<p>在一行中:</p>
<p>分数越高,对应的特征越重要。在</p>
<p>来自<a href="https://scikit-learn.org/stable/modules/ensemble.html#feature-importance-evaluation" rel="nofollow noreferrer">Documentation</a>:</p>
<p>作为树中决策节点的特征的相对秩(即深度)可以用来评估该特征相对于目标变量的可预测性的相对重要性。<strong>树顶部使用的特征有助于更大比例输入样本的最终预测决策</strong>。因此,它们贡献的样本的期望分数可以用来估计特征的相对重要性。在</p>
<p>在scikit-learn中,<strong>特征贡献的样本分数</strong>与拆分样本所导致的杂质减少相结合,从而对该特征的预测能力进行归一化估计。在</p>
<p>您可以在中找到更多详细信息</p>
<blockquote>
<p>G. Louppe, “Understanding Random Forests: From Theory to Practice”,
PhD Thesis, U. of Liege, 2014.</p>
</blockquote>
<p>从上述论题来看:</p>
<p><a href="https://i.stack.imgur.com/kbFqI.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/kbFqI.png" alt="enter image description here"/></a></p>
<p>根据文档:</p>
<p>根据代码,加权杂质减少方程如下:</p>
<pre><code>Feature of importance of feature X_i
= Sum of the following value for all nodes, in which X_i is the splitting features
N_t / N *impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity
</code></pre>
<p>其中<code>N</code>是样本总数,<code>N_t</code>是
samples at the current node,<code>N_t_L</code>是
left child,<code>N_t_R</code>是右子元素中的样本数。
<code>N</code>、<code>N_t</code>、<code>N_t_R</code>和{<cd3>}都是加权和,
如果<code>sample_weight</code>被传递。在</p>
<p>对于一组树,对所有树的特征重要性进行平均,得到整个模型的特征重要性。在</p>