GridsearchCV和Kfold交叉验证

from sklearn.grid_search import GridSearchCV RFReg = RandomForestRegressor(random_state = 1) param_grid = { 'n_estimators': [100, 500, 1000, 1500], 'max_depth' : [4,5,6,7,8,9,10] } CV_rfc = GridSearchCV(estimator=RFReg, param_grid=param_grid, cv= 10) CV_rfc.fit(X_train, y_train)

1条回答

网友

1楼 · 发布于 2024-09-28 03:15:15

关于（1），你的理解确实是正确的；原则上要更正的措辞细节是“更好final_score”，而不是“更高”，因为有几个性能指标（所有测量误差的东西，如MSE、MAE等）是-越低越好的。在

现在，步骤（2）更棘手；它需要后退一步来检查整个过程。。。在

首先，CV通常用于参数调整（您的步骤1）或模型评估（即，您在步骤2中尝试做什么），这确实是不同的事情。从一开始就将数据分割成训练和测试集，然后按顺序执行步骤1（参数调整）和2b（未查看数据中的模型评估）可以说是原则上最“正确”的程序（至于您在评论中注意到的偏差，这是我们必须接受的，因为默认情况下，我们所有的拟合模型都“偏向”用于训练的数据，这是无法避免的）。在

尽管如此，从业者们早就在想，他们是否可以避免仅仅为了测试（模型评估）的目的而“牺牲”一部分宝贵的数据，并试图看看他们是否真的可以跳过模型评估部分（以及测试集本身），将参数调整过程（步骤1）中获得的最佳结果用作模型评估。这显然是在偷工减料，但和往常一样，问题是实际结果会有多差？它还会有意义吗？

同样，在《理论》中，维韦克·库马尔在他的linked answer中所写的是正确的：

If you use the whole data into GridSearchCV, then there would be leakage of test data into parameter tuning and then the final model may not perform that well on newer unseen data.

但以下是（强烈推荐）这本书的相关节选（第78页）：

简而言之：如果您在步骤1中使用整个X，并将调整的结果视为模型评估，那么确实会存在偏差/泄漏，但它通常很小，至少对于中等规模的训练集来说是这样的。。。在

收尾：

理论上“最正确”的程序实际上是第一步和第二步的结合
您可以尝试省事，在步骤1中使用整个训练集X，而且很可能您仍然在模型评估的可接受范围内。在

相关问题更多 >

编程相关推荐

热门问题

热门文章