如何处理sklearn GradientBoostingClassifier中的分类变量？问题的回答

如何处理sklearn GradientBoostingClassifier中的分类变量？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<a href="http://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.get_dummies.html" rel="noreferrer">pandas.get_dummies</a>或<a href="http://statsmodels.sourceforge.net/stable/generated/statsmodels.tools.tools.categorical.html" rel="noreferrer">statsmodels.tools.tools.categorical</a>可用于将分类变量转换为虚拟矩阵。然后我们可以将虚拟矩阵合并回训练数据。 下面是执行上述过程后问题的示例代码。 <pre><code>from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import roc_curve,auc from statsmodels.tools import categorical import numpy as np iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[(iris.target==0) | (iris.target==1)] # Class 0 has indices 0-49. Class 1 has indices 50-99. # Divide data into 80% training, 20% testing. train_indices = list(range(40)) + list(range(50,90)) test_indices = list(range(40,50)) + list(range(90,100)) X_train = X[train_indices] X_test = X[test_indices] y_train = Y[train_indices] y_test = Y[test_indices] ########################################################################### ###### Convert categorical variable to matrix and merge back with training ###### data. # Fake categorical variable. catVar = np.array(['a']*40 + ['b']*40) catVar = categorical(catVar, drop=True) X_train = np.concatenate((X_train, catVar), axis = 1) catVar = np.array(['a']*10 + ['b']*10) catVar = categorical(catVar, drop=True) X_test = np.concatenate((X_test, catVar), axis = 1) ########################################################################### # Model and test. clf = GradientBoostingClassifier(learning_rate=0.01,max_depth=8,n_estimators=50).fit(X_train, y_train) prob = clf.predict_proba(X_test)[:,1] # Only look at P(y==1). fpr, tpr, thresholds = roc_curve(y_test, prob) roc_auc_prob = auc(fpr, tpr) print(prob) print(y_test) print(roc_auc_prob) </code></pre> 感谢Andreas Muller指示熊猫数据帧不应用于scikit学习估计器。

如何处理sklearn GradientBoostingClassifier中的分类变量？

1 个回答

相关Python问题