Sklearn ROC AUC Score:ValueError:y应该是1d数组，而不是形状数组（15,2）

merged_df = pd.read_csv(r'C:\...\merged.csv') num_columns = merged_df.select_dtypes(include=['float64']).columns cat_columns = merged_df.select_dtypes(include=['object']).drop(['TARGET','NAMA'], axis=1).columns numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())]) categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('label', OneHotEncoder(handle_unknown='ignore'))]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, num_columns), ('cat', categorical_transformer, cat_columns)]) X = merged_df.drop(['TARGET','Unnamed: 0'],1) y = merged_df['TARGET'] X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2) X_train = X_train.drop(['NIM', 'NAMA'],1) X_test = X_test.drop(['NIM', 'NAMA'],1) rf = Pipeline(steps=[('preprocessor', preprocessor), ('classifier',tree.DecisionTreeClassifier(class_weight='balanced', criterion='entropy'))]) rf.fit(X_train, y_train) pred = rf.predict(X_test) y_proba = rf.predict_proba(X_test) from sklearn.model_selection import KFold kf = KFold(n_splits=10) for train, test in kf.split(X): X_train, X_test = X.loc[train], X.loc[test] y_train, y_test = y.loc[train], y.loc[test] model = rf.fit(X_train, y_train) y_proba = model.predict_proba(X_test) try: print(roc_auc_score(y_test, y_proba,average='weighted', multi_class='ovr')) except ValueError: pass

1条回答

网友

1楼 · 发布于 2024-09-23 04:33:20

来自model.predict_proba()的输出是一个包含2列的矩阵，每个类对应一列。要计算roc，您需要提供正类的概率：

使用示例数据集：

from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split

X, y = make_classification(n_classes=2)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)
rf = RandomForestClassifier()
model = rf.fit(X_train, y_train)
y_proba = model.predict_proba(X_test)

看起来是这样的：

array([[0.69, 0.31],
       [0.13, 0.87],
       [0.94, 0.06],
       [0.94, 0.06],
       [0.07, 0.93]])

然后做：

roc_auc_score(y_test, y_proba[:,1])

相关问题更多 >

编程相关推荐

热门问题

热门文章