使用保存和加载经过训练的GradientBoostingClassifier作业库转储

# use 90% of training data NI=int(len(X_tr)*0.9) I1=np.random.choice(len(X_tr),NI) Xi=X_tr[I1,:] Yi=Y_tr[I1] #train a GradientBoostingCalssifier using that data a=GradientBoostingClassifier(learning_rate=0.02, n_estimators=500, min_samples_leaf=50,presort=True,warm_start=True) a.fit(Xi,Yi) # calculate class probabilities for the remaining data I2=np.array(list(set(range(len(X_tr)))-set(I1))) Pi=np.zeros(len(X_tr)) Pi[I2]=a.predict_proba(X_tr[I2,:])[:,1].reshape(-1) #save indexes of training data and the predicted probabilites np.savetxt('models\\balanced\\GBT1\\oob_index'+str(j)+'.txt',I2) np.savetxt('models\\balanced\\GBT1\\oob_m'+str(j)+'.txt',Pi) # save the trained classifier joblib.dump(a, 'models\\balanced\\GBT1\\m'+str(j)+'.pkl')

1条回答

网友

1楼 · 发布于 2024-10-01 00:16:45

错误在您的代码中。我建议您使用train_test_split分割数据。它通过default对数据进行洗牌

下面的代码为auc度量生成相同的结果：

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import auc
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pickle
from sklearn.externals import joblib

def main():
    X, y = load_iris(return_X_y=True)
    X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=.3)

    clf = GradientBoostingClassifier()
    clf.fit(X_train, y_train)

    preds = clf.predict(X_test)
    prec, rec, _ = precision_recall_curve(y_test, preds, pos_label=1)

    with open('dump.pkl', 'wb') as f:
        pickle.dump(clf, f)

    print('AUC SCORE: ', auc(rec, prec))

    clf2 = joblib.load('dump.pkl')
    preds2 = clf2.predict(X_test)

    prec2, rec2, _ = precision_recall_curve(y_test, preds2, pos_label=1)

    print('AUC SCORE AFTER DUMP: ', auc(rec2, prec2))

if __name__ == '__main__':
    main()

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章