如何在SVC模型中设置一个特定的阈值并生成混淆矩阵？

from sklearn.model_selection import train_test_split df = pd.read_csv('fraud_data.csv') X = df.iloc[:,:-1] y = df.iloc[:,-1] X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) def answer_four(): from sklearn.metrics import confusion_matrix from sklearn.svm import SVC from sklearn.calibration import CalibratedClassifierCV from sklearn.model_selection import train_test_split svc = SVC(C=1e9,gamma= 1e-07) scv_calibrated = CalibratedClassifierCV(svc) svc_model = scv_calibrated.fit(X_train, y_train) # set threshold as -220 y_pred = (svc_model.predict_proba(X_test)[:,1] >= -220) conf_matrix = confusion_matrix(y_pred, svc_model.predict(X_test)) return conf_matrix answer_four()

2条回答

网友

1楼 · 编辑于 2024-09-29 11:22:28

你用错了混淆矩阵。你知道吗

混淆矩阵背后的想法是，我们的预测y_pred与基本事实y_true的比较有多好，通常是在一个测试集合中。你知道吗

实际上，您在这里所做的是计算一个“混淆矩阵”，将自定义阈值为-220（y_pred）的预测与其他一些默认阈值的预测（输出svc_model.predict(X_test)）进行比较，这没有任何意义。你知道吗

测试集的基本事实是y_test；因此，要获得带有默认阈值的混淆矩阵，应该使用

confusion_matrix(y_test, svc_model.predict(X_test))

要获得自定义阈值为-220的混淆矩阵，应该使用

confusion_matrix(y_test, y_pred)

有关用法的更多详细信息，请参见documentation（这是您最好的朋友，当您有问题或疑虑时，应该始终首先查看）。你知道吗

网友
2楼 · 编辑于 2024-09-29 11:22:28

这段代码产生了预期的输出，除了在前一段代码中我不正确地使用了混淆矩阵之外，我还应该使用decision\函数并得到过滤220阈值的输出。你知道吗
def answer_four(): from sklearn.metrics import confusion_matrix from sklearn.svm import SVC from sklearn.calibration import CalibratedClassifierCV from sklearn.model_selection import train_test_split #SVC without mencions of kernel, the default is rbf svc = SVC(C=1e9, gamma=1e-07).fit(X_train, y_train) #decision_function scores: Predict confidence scores for samples y_score = svc.decision_function(X_test) #Set a threshold -220 y_score = np.where(y_score > -220, 1, 0) conf_matrix = confusion_matrix(y_test, y_score) ####threshold### #input threshold in the model after trained this model #threshold is a limiar of separation of class return conf_matrix answer_four() #output: array([[5320, 24], [ 14, 66]])

相关问题更多 >

编程相关推荐

热门问题

热门文章