如何使用sklearn的GridSearchCV处理不适合内存的数据?

2024-06-28 19:44:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集太大,无法放入内存中,所以我必须成批训练模型。我把我的模型包装在一个GridSearchCV、一个随机的searchcv或一个bayesarchcv(来自scikit optimized)中,我发现我无法在我庞大的数据集的不同部分训练这些实例的多个实例,并且期望每个实例找到的最佳超参数都会一致。在

我考虑过将我的估计器包装在一个批投票者(我自己设计的)中,该投票者可以成批管理从数据库中读取的数据,并保存一个模型列表。将其传递给xseaccv并更新参数空间字典,以便所有键都以“estimator”开头,可能会指示搜索设置子对象的参数,但仍然存在一个问题:搜索是从调用.fit()方法开始的,该方法必须获取数据。在

有没有一种聪明的方法可以将本机GridSearchCV用于太大而无法传递给.fit()方法的数据?


Tags: 数据实例方法内存模型数据库列表参数
1条回答
网友
1楼 · 发布于 2024-06-28 19:44:43

试试dask。它支持数据帧、数组和集合。它由调度程序和工作线程组成。它还有一个distributed调度器,允许在多台PC上处理数据帧

Here是关于如何并行化模型的描述。在

Here是指向完整模块的链接,它可以是GridSearchCV的直接替换

相关问题 更多 >