大数据集分类模型

2024-09-28 16:19:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在一个数据集上实现一个分类模型,其中n=3000000,有12列。我有一个问题,因为下班后速度很慢,我什么也看不到,你有没有建议把它开快一点

塔克斯

df = pd.DataFrame(np.random.randint(0,100,size=(3000000, 12)), columns=list('ABCDEFGHIJKL'))
X=df.drop(['L'], axis=1)
y=df['L']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

parameters = {'n_neighbors':np.arange(1,30)}
grid=GridSearchCV(KNeighborsClassifier(),parameters,cv=5)
grid.fit(X_train, y_train)


Tags: 数据模型testdataframedfsizenp分类
2条回答

除了减少大量邻居之外,另一个答案是:从较小的数据样本构建模型。如果KNeighborsClassifier在一百万次观测中看起来不太有希望,那么花时间和资源在三百万次观测中进行试验可能是不值得的

使用更多的核心,即在GridSearchCVKNeighborsClassifier中使用n_jobs=-1

parameters = {'n_neighbors':np.arange(1,30)}
grid=GridSearchCV(KNeighborsClassifier(n_jobs=-1),parameters,cv=5, n_jobs=-1)
grid.fit(X_train, y_train)

相关问题 更多 >