在随机森林中寻找重要特征是非常重要的

from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier(n_estimators=50) clf = clf.fit(X, Y) for i in xrange(len(clf.feature_importances_)): print clf.feature_importances_[i]

2条回答

网友

1楼 · 编辑于 2024-09-26 17:56:48

您需要做的就是将clf.feature_importances_的结果存储在一个数组中，然后使用它打印出结果。比如：

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=50)
clf = clf.fit(X, Y)

featureImportance = clf.feature_importances_
for i in xrange(len(featureImportance)):
    print featureImportance[i]

现在处理它的方法是每次都重新计算数组。在

网友

2楼 · 编辑于 2024-09-26 17:56:48

我将建议一个小的变体，它可以自动解决问题，因为它只得到feature_importances_一个：

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=50)
clf = clf.fit(X, Y)
for feature_importance in clf.feature_importances_:
    print feature_importance

如果需要循环索引i，只需使用enumerate：

^{pr2}$

这也是比使用

for i in xrange(len(<some-array>)): 
    <some-array>[i]

我认为如果RandomForestClassifier在幕后跟踪它的状态会更好。如果状态发生变化（例如，n_estimators被更改，或者其他参数），它应该重新计算feature_importances_（像现在一样动态）。否则，它应该只返回当前缓存的功能重要性。
然而，这在幕后更为复杂。在

也许最简单的方法是将属性更改为实际的方法：calc_feature_importances()。
再说一次，我没有把精力放在创建RandomForestClassifier上，所以我不能抱怨。在

相关问题更多 >

编程相关推荐

热门问题

热门文章