<p>你用相同的数据集和相同的估计值得到了90%的结果吗?因为数据集在</p>
<blockquote>
<p>first 11,340 records used for training data subset</p>
<p>next 3,780 records used for validation data subset</p>
<p>last 565,892 records used for testing data subset</p>
</blockquote>
<p>并且文档声称以下性能,这使您的未挖掘随机森林不那么差:</p>
<blockquote>
<p>70% Neural Network (backpropagation)</p>
<p>58% Linear Discriminant Analysis</p>
</blockquote>
<p>至于<code>n_estimators</code>等于100,则可以增加到500、1.000甚至更多。检查每一项的结果,并在分数开始稳定时保留数字。在</p>
<p>这个问题可能来自于Weka的默认超参数,而不是Scikit-Learn超参数。您可以调整其中一些选项以提高结果:</p>
<ul>
<li><code>max_features</code>获取每个树节点上要拆分的功能的数量。在</li>
<li><code>max_depth</code>可能是模型太深而超出了您的训练数据</li>
<li><code>min_samples_split</code>、<code>min_samples_leaf</code>、<code>min_weight_fraction_leaf</code>和{<cd7>}处理的是样本在树叶之间的重新分配——什么时候保存它们。在</li>
</ul>
<p>您也可以尝试通过组合它们来处理您的特征,或者通过减小维度。在</p>
<p>您应该看看kaggle脚本,比如<a href="https://www.kaggle.com/c/forest-cover-type-prediction/forums/t/8182/first-try-with-random-forests-scikit-learn" rel="nofollow">here</a>,如果它们描述了如何使用<code>ExtraTreesClassifier</code>获得78%的结果(但是,训练集包含11.340+3780个recor,它们似乎使用了更多的<code>n_estimators</code></p>