随机森林分类器严重过度拟合

def train_model(self): logger.info("Using random forest classifier......") train = self.feature_preprocessing(self.train) X_train = pd.DataFrame(data=train, columns=['superType1', 'superType2', 'superType3']) logger.info("Using features: %s", X_train.columns) y_train = train['ROLLBACK_REVERTED'] rfc = RandomForestClassifier(n_jobs=-1, max_features=None, n_estimators=1000, oob_score=True, random_state=50, min_samples_leaf=1, max_depth=9) param_grid = { 'n_estimators': [500, 600, 700, 800], 'max_depth': [8, 9, 10, 11], 'min_samples_leaf': [1], } search = sklearn.grid_search.GridSearchCV(rfc, param_grid, n_jobs=-1, verbose=0, scoring='roc_auc', cv=3) search.fit(X_train, y_train) logger.info("All Scores: %s", search.grid_scores_) logger.info("Best Score: %s", search.best_score_) logger.info("Best Params: %s", search.best_params_) predictedProbVal = search.predict_proba(X_train) roc_auc_score_train = metrics.roc_auc_score(y_train, predictedProbVal[:, 1]) logger.info("roc_auc_score_train:%s", roc_auc_score_train) validationProb = self.predict_probabilities(search) return validationProb def predict_probabilities(self, rfModel): validation = self.feature_preprocessing(self.validation) X_val = pd.DataFrame(data=validation, columns=['superType1', 'superType2', 'superType3', 'superTypeProbability']) y_val = validation['ROLLBACK_REVERTED'] # Predict the result for test data predictedProbVal = rfModel.predict_proba(X_val) validation['vandalismScore'] = pd.DataFrame(predictedProbVal[:, 1]) roc_auc_score_val = metrics.roc_auc_score(y_val, predictedProbVal[:, 1]) logger.info("roc_auc_score_validation:%s", roc_auc_score_val) return validation

1条回答

网友

1楼 · 发布于 2024-10-04 01:34:32

问题在superTypeProbability中。我通过对superTypeProbability特性进行一些更改来解决这个问题。现在ROC=0.82。在计算superTypeProbability之前，我正在计算typeProbability特性。在随机森林中使用typeProbability时，ROC=0.74。我想改进这个结果。这个特性有两个NaN值，比如500是1000中的NaN。为了减少这个数字，我衍生了新特性superTypeProbability。如果typeProbability和{}都存在，则将更高的值赋给superTypeProbability。这样，superTypeProbability的NaN值就更少了，比如说1000中有300个。现在，为了填充这个NaN值，我用平均超类型概率值来代替，这个值小于平均类型概率值。这就是问题的起因。所以我现在使用 平均类型概率填充NaN

features['superTypeProbability'] = features['superTypeProbability'].fillna(features['typeProbability'][features.typeProbability!='None'].mean())

相关问题更多 >

编程相关推荐

热门问题

热门文章