如何使用pandas或sklearn对大数据集进行子集化,以缩短模型训练的运行时间?

2024-09-30 22:28:18 发布

您现在位置:Python中文网/ 问答频道 /正文

这是一个普遍的问题,但我附上了一个真实的数据集来说明这个想法。当我在一个非常大的数据集上训练一个模型时,我花了几个小时才完成(logistic回归,macbook air,CPU:1.4GHz英特尔酷睿i5 8G RAM)。有没有一种方法可以分割/切分训练数据本身,以便我们能够更有效地计算sklearn或{}中的模型性能?在

数据集:

from sklearn.datasets import fetch_covtype
import numpy as np
import pandas as pd

cov.data.shape  #(581012 rows, 54 features)
cov = fetch_covtype()
cov_data = pd.DataFrame(cov.data)
cov_target = pd.DataFrame(cov.target)

谁能帮忙吗?在


Tags: 数据模型importtargetdataframedataasfetch
1条回答
网友
1楼 · 发布于 2024-09-30 22:28:18

如果您只是在寻找一个用于开发的子集,那么您可以在cov = cov[:5000]的前面插入一行代码

如果您已经过去了,并且想评估模型的性能,我建议sklearn test_train_split

相关问题 更多 >