管道预测X与拟合期间的形状不同

class PreProcessing(BaseEstimator, TransformerMixin): def __init__(self): pass def transform(self, df): #Here i select the features and transform them for exemple: age_band=0 if age<=10 age_band=1 else #... etc to 90 age_band=9 .... other feature engineering .... encoder = ce.BinaryEncoder(cols=selectedCols) encoder.fit(df) df = encoder.transform(df) return df.as_matrix() def fit(self, df, y=None, **fit_params): return self pipe = make_pipeline(PreProcessing(), SelectKBest(f_classif,k=23), RandomForestClassifier()) param_grid = {"randomforestclassifier__n_estimators" : [100,400], "randomforestclassifier__max_depth" : [None], "randomforestclassifier__max_leaf_nodes": [2,3,5], "randomforestclassifier__min_samples_leaf":[3,5,8], "randomforestclassifier__class_weight":['balanced'], "randomforestclassifier__n_jobs":[-1] } grid_search = GridSearchCV(pipe,param_grid,cv=5,scoring='recall',verbose=1,n_jobs=15) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) grid_search.fit(X_train,y_train) grid_search.predict(X_test) filename = 'myModel.pk' with open(filename, 'wb') as file: pickle.dump(grid_search, file)

1条回答

网友

1楼 · 发布于 2024-05-21 11:21:59

这似乎是您的“特性选择/创建”过程中的一个问题。每次将一组新的输入传递到管道时，都要安装一个BinaryEncoder。这意味着，每当在指定列中有不同数量的唯一值时，代码都会因此错误而中断。在

我的猜测是，如果您将BinaryEncoder保存为PreProcessing实例的一部分，假设您的训练数据具有此列可以接受的所有可能值，则这不会是一个问题。在

class PreProcessing(BaseEstimator, TransformerMixin):
  def __init__(self):
    self.encoder = ce.BinaryEncoder(cols=selectedCols)

  def fit(self, df, **kwargs):
    self.encoder.fit(df)

  def transform(self, df):
    # ...
    # No fitting, just transform
    df = self.encoder.transform(df)
    return df

更好的是，您可以将BinaryEncoder插入到管道中，并将其完全排除在PreProcessing之外吗？在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章