我想在一个数据集上实现一个分类模型,其中n=3000000,有12列。我有一个问题,因为下班后速度很慢,我什么也看不到,你有没有建议把它开快一点
塔克斯
df = pd.DataFrame(np.random.randint(0,100,size=(3000000, 12)), columns=list('ABCDEFGHIJKL'))
X=df.drop(['L'], axis=1)
y=df['L']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
parameters = {'n_neighbors':np.arange(1,30)}
grid=GridSearchCV(KNeighborsClassifier(),parameters,cv=5)
grid.fit(X_train, y_train)
除了减少大量邻居之外,另一个答案是:从较小的数据样本构建模型。如果
KNeighborsClassifier
在一百万次观测中看起来不太有希望,那么花时间和资源在三百万次观测中进行试验可能是不值得的使用更多的核心,即在
GridSearchCV
和KNeighborsClassifier
中使用n_jobs=-1
相关问题 更多 >
编程相关推荐