Sklearn交叉验证产生的结果与手动执行不同

# X is my features. (m x p) # y is labels. (m x 1) # Using cross_validation.cross_val_score() function: classifier = LogisticRegression() scores1 = cross_validation.cross_val_score(classifier, X, y, cv=10) print("Accuracy: %0.2f (+/- %0.2f)" % (scores1.mean(), scores1.std() * 2)) # Doing it "manual": scores2 = np.array( [] ) classifier = LogisticRegression() for i in range(10): X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.1, random_state=i) classifier.fit(X_train,y_train) score = classifier.score(X_test, y_test) scores2 = np.append(scores2, score) print("Accuracy: %0.2f (+/- %0.2f)" % (scores2.mean(), scores2.std() * 2)) # This prints: # Accuracy: 0.72 (+/- 0.47) # Accuracy: 0.58 (+/- 0.52)

1条回答

网友

1楼 · 发布于 2024-09-30 12:33:45

train_test_split使用随机训练和测试集分割，而cross_val_score(cv=10)使用分层k-fold交叉验证。在

尝试使用cv=ShuffleSplit（test_size=0.1）。这会给你更多类似的结果。它不会使用与您相同的随机播种，因此它们可能仍然不同。不过，如果他们都在对方的性病之外，那就很奇怪了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章