如何使用pandas或sklearn对大数据集进行子集化，以缩短模型训练的运行时间？

2024-09-30 22:28:18 发布

男 | 程序猿一只，喜欢编程写python代码。

这是一个普遍的问题，但我附上了一个真实的数据集来说明这个想法。当我在一个非常大的数据集上训练一个模型时，我花了几个小时才完成（logistic回归，macbook air，CPU:1.4GHz英特尔酷睿i5 8G RAM）。有没有一种方法可以分割/切分训练数据本身，以便我们能够更有效地计算sklearn或{}中的模型性能？在

数据集：

from sklearn.datasets import fetch_covtype
import numpy as np
import pandas as pd

cov.data.shape  #(581012 rows, 54 features)
cov = fetch_covtype()
cov_data = pd.DataFrame(cov.data)
cov_target = pd.DataFrame(cov.target)

谁能帮忙吗？在

Tags：数据模型 import target dataframe data as fetch

1条回答

网友

1楼 · 发布于 2024-09-30 22:28:18

如果您只是在寻找一个用于开发的子集，那么您可以在cov = cov[:5000]的前面插入一行代码

如果您已经过去了，并且想评估模型的性能，我建议sklearn test_train_split

如何使用pandas或sklearn对大数据集进行子集化，以缩短模型训练的运行时间？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pandas或sklearn对大数据集进行子集化，以缩短模型训练的运行时间？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >