这是一个普遍的问题,但我附上了一个真实的数据集来说明这个想法。当我在一个非常大的数据集上训练一个模型时,我花了几个小时才完成(logistic回归,macbook air,CPU:1.4GHz英特尔酷睿i5 8G RAM)。有没有一种方法可以分割/切分训练数据本身,以便我们能够更有效地计算sklearn
或{
数据集:
from sklearn.datasets import fetch_covtype
import numpy as np
import pandas as pd
cov.data.shape #(581012 rows, 54 features)
cov = fetch_covtype()
cov_data = pd.DataFrame(cov.data)
cov_target = pd.DataFrame(cov.target)
谁能帮忙吗?在
如果您只是在寻找一个用于开发的子集,那么您可以在
cov = cov[:5000]
的前面插入一行代码如果您已经过去了,并且想评估模型的性能,我建议sklearn test_train_split
相关问题 更多 >
编程相关推荐