如何进行组K折验证并保持数据平衡？

n_shuffles = 2 group_k_fold = GroupKFold(n_splits=5) for i in range(n_shuffles): X_shuffled, y_shuffled, groups_shuffled = shuffle(idx, labels, subjects, random_state=i) splits = group_k_fold.split(X_shuffled, y_shuffled, groups_shuffled) for train_idx, val_idx in splits: X = perezDataFrame.loc[perezDataFrame['ID'].isin(X_shuffled[train_idx]),AU_names].values X = preprocessing.normalize(X, norm='l2') y = perezDataFrame.loc[perezDataFrame['ID'].isin(X_shuffled[train_idx]),'label'].values XTest = perezDataFrame.loc[perezDataFrame['ID'].isin(X_shuffled[val_idx]),AU_names].values XTest = preprocessing.normalize(XTest, norm='l2') yTest = perezDataFrame.loc[perezDataFrame['ID'].isin(X_shuffled[val_idx]),'label'].values

1条回答

网友

1楼 · 发布于 2024-10-01 09:32:20

所以我不认为有一个默认的scikit learn crossvalidator可以实现您想要的，但是应该可以创建一个。在

我的方法是循环检查所有的科目，然后贪婪地将他们分配到测试集中的一部分，这取决于分配对折叠的大小以及目标类比率的改善程度。在

我生成了一些与您的问题类似的示例数据：

import pandas as pd
import numpy as np


n_subjects = 50
n_observations = 100
n_positives = 15

positive_subjects = np.random.randint(0, n_subjects, n_positives)
data = pd.DataFrame({
    'subject': np.random.randint(0, n_subjects, n_observations)
}).assign(
    target=lambda d: d['subject'].isin(positive_subjects)
)


subject target
0   14  False
1   12  True
2   10  False
3   36  False
4   21  False

然后我们可以使用下面的代码片段进行赋值

^{pr2}$

并验证它是否如我们预期的那样工作：


for fold, subjects in test_subjects_per_fold.items():
    print('-'*80)
    print(f'for fold {fold}')
    test_data = data.loc[lambda d: d['subject'].isin(subjects)]
    train_data = data.loc[lambda d: ~d['subject'].isin(subjects)]

    print('train - pos rate:', train_data['target'].mean(), 'size:', len(train_data))
    print('test - pos rate:', test_data['target'].mean(), 'size:', len(test_data))

                                        
for fold 0
train - pos rate: 0.3 size: 80
test - pos rate: 0.3 size: 20
                                        
for fold 1
train - pos rate: 0.3037974683544304 size: 79
test - pos rate: 0.2857142857142857 size: 21
                                        
for fold 2
train - pos rate: 0.2962962962962963 size: 81
test - pos rate: 0.3157894736842105 size: 19
                                        
for fold 3
train - pos rate: 0.3 size: 80
test - pos rate: 0.3 size: 20
                                        
for fold 4
train - pos rate: 0.3 size: 80
test - pos rate: 0.3 size: 20

变量命名可以在这里和那里得到改进，但总的来说，我认为这种方法可以解决您的问题。在

在scikit-learn兼容的crossvalidator中实现这一点看起来像这样，尽管它需要更多的重新设计。在

class StratifiedGroupKFold(_BaseKFold):

    ...


    def _iter_test_indices(self, X, y, groups):
        test_subjects_per_fold = {fold: [] for fold in range(n_folds)}

        for subject in data['subject'].unique():

            target_rate_improvement = np.array([self.target_rate_improvements(X, y, test_subjects_per_fold[fold], subject) for fold in range(self.n_folds)])  
            size_improvements = np.array(self.size_improvement(X, y, test_subjects_per_fold, self.n_folds)) * 0.001
            best_fold = np.argmax(target_rate_improvement +size_improvements)
            test_subjects_per_fold[best_fold] += [subject]

        for subjects in test_subjects_per_fold.values():
            yield data['subject'].isin(subjects)], ~data['subject'].isin(subjects)]

相关问题更多 >

编程相关推荐

热门问题

热门文章