我现在正在尝试做一个关于随机森林的简单程序。采用两个序列进行训练和预测,绘制最终的随机森林曲线。在
但是我不能这样做,因为我不知道我应该采取哪种序列,以及如何将随机森林结果绘制在图上,就像我们以前用R语言做的那样。在
我已经试过了-
import numpy as np
from pylab import *
test=np.random.rand(1000,10)
print (test)
train=np.random.rand(1000,5)
print (train)
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=100,n_jobs=10)
rfc.fit(test, train)
请看代码,这将是一个很大的帮助,如果你可以纠正代码,并告诉我如何绘制随机森林结果。在
我期待您尽快的回复。在
用R语言,我做了这个-
library(randomForest)
rf1 <- randomForest(predict~., data=df, mtry=2, ntree=500, importance=TRUE)
importance(rf1,type=1)
library(party)
cf1 <- cforest(predict~.,data=df,control=cforest_unbiased(mtry=2,ntree=50))
varimp(cf1)
varimp(cf1,conditional=TRUE)
plot (rf1, log = "y")
train
和test
变量的预期含义是什么?在RandomForestClassifier.fit
的documentation表示对于分类器,您需要为第二个参数(文档中名为y
)传递类标签。它可以是整数值(每个可能类的整数)或字符串标签列表。在另外,
fit
只能用训练数据调用(训练集输入特性和训练集标签),因此传递一个名为test
的变量确实很混乱。在请从以下scikit教程开始学习如何使用该库训练分类器:
然后特别阅读随机森林的文档:
如果要计算变量重要性,请特别阅读本节:
相关问题 更多 >
编程相关推荐