擅长:python、mysql、java
<p>根据数据中的噪声量和数据集的大小,这可能会导致样本外数据的分数偏离此值。一个分割不能保证和其他分割一样,这就是为什么你首先有10个分割,然后在所有结果中取平均值</p>
<p>你应该相信最具普遍性的是<strong>而不是任何一个给定的分割</strong>(无论是来自10个折叠中的一个还是^{<cd1>),但更值得信赖的是所有N个折叠的<strong>平均结果</strong></p>
<p>深入挖掘数据可能会揭示一个或多个拆分与另一个拆分偏离如此大的原因。例如,您的数据中可能存在某些特征(例如,“样本采集日期”和采集方法每月都有变化),使得数据之间存在偏差。如果是这种情况,你应该使用分层测试分割(在你的简历中也是如此)(参见<a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html" rel="nofollow noreferrer">scikit-learn documentation on that</a>),这样你就可以得到一个更公正的数据分组</p>