我能让支持向量机在大数据集上运行得更快吗？

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn import svm from sklearn import metrics proteindata = pd.read_csv("data.csv") np.any(np.isnan(proteindata)) print(proteindata.shape) print(proteindata.columns) print(proteindata.head()) X = proteindata.drop("Class", axis=1) y = proteindata["Class"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40) Classifier = svm.SVC(kernel='poly') Classifier.fit(X_train, y_train) y_pred = Classifier.predict(X_test) print("Accuracy:", metrics.accuracy_score(y_test, y_pred))

1条回答

网友

1楼 · 发布于 2024-09-29 23:18:30

看看this answer，它包含了使用较小的训练模型集合来决定最佳分类器的思想。其基本思想是对大量较小的数据子集进行训练。然后，采用聚合模型仍然会合并来自所有数据的信息，而无需立即对所有数据进行训练（，尽管它不会完全等效）。由于支持向量机的训练时间与样本数成二次比例关系，所以对数据子集的训练应该要快得多

相关问题更多 >

编程相关推荐

热门问题

热门文章