分类报告结果

rf = Pipeline([ ('rfCV',FeaturesSelection.countVect), ('rf_clf',RandomForestClassifier(n_estimators=200,n_jobs=3)) ]) rf.fit(DataPreparation.train_acc['Acc'],DataPreparation.train_acc['Label']) predicted_rf = rf.predict(DataPreparation.test_acc['Acc']) np.mean(predicted_rf == DataPreparation.test_acc['Label']) Then I use K-Fold cross validation: def confusion_matrix(classifier): k_fold = KFold(n_splits=5) scores = [] confusion = np.array([[0,0],[0,0]]) for train_ind, test_ind in k_fold.split(DataPreparation.train_acc): train_text = DataPreparation.train_acc.iloc[train_ind]['Acc'] train_y = DataPreparation.train_acc.iloc[train_ind]['Label'] test_text = DataPreparation.train_acc.iloc[test_ind]['Acc'] test_y = DataPreparation.train_acc.iloc[test_ind]['Label'] classifier.fit(train_text,train_y) predictions = classifier.predict(test_text) confusion += confusion_matrix(test_y,predictions) score = f1_score(test_y,predictions) scores.append(score) return (print('Score:', sum(scores)/len(scores)))

print(classification_report(DataPreparation.test_acc['Label'], predicted_nb)) print(classification_report(DataPreparation.test_acc['Label'], predicted_svm)) print(classification_report(DataPreparation.test_acc['Label'], predicted_rf))

f1 = f1_score(DataPreparation.test_acc['Label'], predicted_rf) pres = precision_score(DataPreparation.test_acc['Label'], predicted_rf) rec = recall_score(DataPreparation.test_acc['Label'], predicted_rf) acc = accuracy_score(DataPreparation.test_acc['Label'], predicted_rf) res = res.append({'Precision': pres, 'Recall': rec, 'F1-score': f1, 'Accuracy': acc}, ignore_index = True)

1条回答

网友

1楼 · 发布于 2024-06-28 20:32:28

F1成绩与班级有着内在的联系。这就是为什么在分类报告中有两个F1分数。当您打印f1_分数（true，predicted）时，它只会给您一个数字，根据sklearn的文档，该数字默认为指定为正值的类的f1分数（来源：https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html，参数>；average）。分类报告返回所有类型的平均值，但是您包含的是micro-f1分数，它不同于之前的f1分数，并且是基于总的真阳性、假阴性和假阳性（如果您选中https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html）计算的，在所提供的示例中，类别2的micro f1为80%，因为2个'2'被正确分类为2'，另外2个实例被正确分类为非'2'，一个'2'未被分类为'2'）。现在，如果您提供的第一个分数与最后一个分数不同，尽管它们都是由相同的sklearn函数调用的，这是因为第一个数字来自您数据上的CV方案

相关问题更多 >

编程相关推荐

热门问题

热门文章