SMOTE过采样创建新的数据点

from imblearn.over_sampling import SMOTE from collections import Counter #removing the random_state dosent help sm = SMOTE(random_state=0) X_res, y_res = sm.fit_resample(X_train, y_train) print('Resampled dataset shape %s' % Counter(y_res)) Resampled dataset shape Counter({1: 381, 0: 381})

1条回答

网友

1楼 · 发布于 2024-09-27 19:27:55

如果数据集的类分布不均匀，这可能会在以后的训练和分类阶段造成麻烦，因为分类器将拥有非常少的数据来学习特定类的特征

与正常的上采样不同，SMOTE利用最近邻算法生成新的合成数据，用于训练模型

正如在this original paper of SMOTE中所说，“少数类通过抽取每个少数类样本并沿连接任何/所有k少数类近邻的线段引入合成样本进行过采样。”

因此，是的，这些新生成的合成数据点很重要，您不必太担心它们。SMOTE是执行此任务的最佳技术之一，因此我建议使用此技术

考虑下面的图像，例如：图a有更多的类0数据点，而类1数据点很少

如您所见，在应用SMOTE（图b）之后，它将为少数类（在本例中，为类1）生成新的数据点，以平衡数据集

尝试阅读：

相关问题更多 >

编程相关推荐

热门问题

热门文章