关于分类评价方法

ava = [] avp = [] avr = [] estimators = [("MinMaxScaler", MinMaxScaler()), ("SVC", SVC(kernel='linear', class_weight='balanced', C=1, decision_function_shape='ovr'))] pl = Pipeline(estimators) for i in range(ITER): accuracy = cross_val_score(pl, X, y, cv=StratifiedKFold(n_splits=3, shuffle=True)) precision = cross_val_score(pl, X, y, scoring='precision_macro', cv=StratifiedKFold(n_splits=3, shuffle=True)) recall = cross_val_score(pl, X, y, scoring='recall_macro', cv=StratifiedKFold(n_splits=3, shuffle=True)) ava.append(np.mean(accuracy)) avp.append(np.mean(precision)) avr.append(np.mean(recall)) print("cross-val-score accuracy {}times average: ".format(ITER), np.mean(ava), "\n") print("cross-val-score precision {}times average: ".format(ITER), np.mean(avp), "\n") print("cross-val-score recall {}times average: ".format(ITER), np.mean(avr), "\n")

1条回答

网友

1楼 · 发布于 2024-09-30 20:19:21

首先，欢迎来到SO

30个样本确实是很小的数据。代替k-fold CV，考虑做leave-one-out CV，在n-1样本上训练模型n次，每次测试一个样本。除了计算度量之外，您还可以看到模型中哪些样本出错以及为什么出错

如果您的模型是确定性的，那么运行比样本更多的折叠不会产生任何影响

在任何情况下，试着想办法手动或综合地增加数据集的大小

相关问题更多 >

编程相关推荐

热门问题

热门文章