我所拥有的数据集在不同的文件上分开,这些文件分组在相互认识的样本上,即它们是在相似的时间在相似的条件下创建的。
列车试验数据集的平衡非常重要,因此样本必须在列车上或试验中,但不能分离。所以KFold在我的scikit学习代码上使用并不简单。在
现在,我用的是类似厕所的东西,比如:
train ~> cat ./dataset/!(1.txt)
test ~> cat ./dataset/1.txt
这是不舒适的,也不太有用,如果我想在几个文件的测试折叠,并作出一个“真正的”简历。
怎样才能写出一份好的简历来检查真正的过度拟合呢?在
Tags:
看看this answer,我意识到pandas可以连接数据帧。我检查了这个过程比
cat
命令行慢了15-20%,但是可以像我预期的那样进行折叠。在不管怎样,我很确定应该有比这更好的方法:
相关问题 更多 >
编程相关推荐