为什么管道被用作GridsearchCV的一部分，而不是相反？

1条回答

网友

1楼 · 发布于 2024-09-30 12:23:52

首先，让我们创建一个数据集

from sklearn.datasets import make_classification
from sklearn import svm
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV


# generate some data to play with
X, y = make_classification(n_informative=5, n_redundant=0, random_state=42)

现在使用网格搜索的常用方法是尝试所有步骤的不同参数。作为示例，让我们使用PCA和SVC

pipe = Pipeline(steps=[('pca', PCA()), ('svm', svm.SVC())])

# Parameters of pipelines can be set using ‘__’ separated parameter names:
param_grid = {
    'pca__n_components': [5, 15, 30, 45, 64],
    'svm__C': [1, 5, 10],
}
gs = GridSearchCV(pipe, param_grid, n_jobs=-1)
gs.fit(X, y)

但是，如果需要，可以将前面的步骤应用于分类器本身，并且只在分类器上执行GridSearch：

pca = PCA()
X_pca, y_pca = pca.fit_transform(X, y)

parameters = {'C':[1, 5, 10]}
svc = svm.SVC()
gs = GridSearchCV(svc, parameters)

gs.fit(X_pca, y_pca)

问题在于，这种方法无法测试不同步骤之间的参数相关性

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么管道被用作GridsearchCV的一部分，而不是相反？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >