有偏数据的精确性和召回率

scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='recall_weighted') print("Recall: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2)) scores = cross_validation.cross_val_score(bdt, X, Y, cv=10, scoring='precision_weighted') print("Precision: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

1条回答

网友

1楼 · 发布于 2024-05-21 07:36:41

这是统计学中的一个常见问题，因此你可以在互联网上找到大量的资源。检查，例如，8 Tactics To Combat Imbalanced Training Data。在

可能最简单的方法是重新采样数据。最简单的方法是复制少数类，直到两个类的代表性相等。从统计学上讲，一个更合理的方法是首先了解你的班级达到的概率分布，然后为每个班级抽取n的样本。因此，您就有了一个平衡的数据集。在

当然，这取决于你的数据——或者只是简单地从你数据中的一个子集中学习。更多选项请参阅文章。在

相关问题更多 >

编程相关推荐

热门问题

热门文章