我正在使用scikit学习对连续变量进行预测
数据:
geneName, diseaseName, drugName, EI, EL, DPI, DSI, pLI
Decision
数据类型:
我使用基于频率的编码将分类列geneName, diseaseName, drugName
转换为数值(每列有+100个以上的类别)
列EL
有6个类别,我使用标签编码将其映射为数值
培训模型:
我正在使用这些超参数训练模型:
import xgboost as xgb
xgbr=xgb.XGBRegressor(
colsample_bytree=0.8,
max_depth=15,
n_estimators=1000,
reg_alpha=1.1,
reg_lambda=1.3,
subsample=0.7)
xgbr.fit(x_train, y_train)
结果: 对模型进行培训,可得出这些指标的以下结果:
Score : 0.9855
Mean cross-validation score: 0.97
MSE: 0.00035
RMSE: 0.01874
交叉验证计算如下:
kfold = KFold(n_splits=10, shuffle=True)
kf_cv_scores = cross_val_score(xgbr, x_train, y_train, cv=kfold )
并给出:
K-fold CV average score: 0.97
这是模型树打印图像:tree model image
我的问题:
目前没有回答
相关问题 更多 >
编程相关推荐