如何处理sklearn GradientBoostingClassifier中的分类变量？

from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier import pandas iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[(iris.target==0) | (iris.target==1)] # Class 0 has indices 0-49. Class 1 has indices 50-99. # Divide data into 80% training, 20% testing. train_indices = list(range(40)) + list(range(50,90)) test_indices = list(range(40,50)) + list(range(90,100)) X_train = X[train_indices] X_test = X[test_indices] y_train = Y[train_indices] y_test = Y[test_indices] X_train = pandas.DataFrame(X_train) # Insert fake categorical variable. # Just for testing in GradientBoostingClassifier. X_train[0] = ['a']*40 + ['b']*40 # Model. clf = GradientBoostingClassifier(learning_rate=0.01,max_depth=8,n_estimators=50).fit(X_train, y_train)

2条回答

网友

1楼 · 编辑于 2024-10-03 23:29:58

当然它可以处理它，您只需要将分类变量编码为管道上的一个单独步骤。Sklearn完全能够处理分类变量以及R或任何其他ML包。R包仍然（可能）在后台执行一个热编码，它只是没有在这种情况下分离编码和拟合的关注点（可以说应该如此）。

网友

2楼 · 编辑于 2024-10-03 23:29:58

pandas.get_dummies或statsmodels.tools.tools.categorical可用于将分类变量转换为虚拟矩阵。然后我们可以将虚拟矩阵合并回训练数据。

下面是执行上述过程后问题的示例代码。

from sklearn import datasets
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_curve,auc
from statsmodels.tools import categorical
import numpy as np

iris = datasets.load_iris()
# Use only data for 2 classes.
X = iris.data[(iris.target==0) | (iris.target==1)]
Y = iris.target[(iris.target==0) | (iris.target==1)]

# Class 0 has indices 0-49. Class 1 has indices 50-99.
# Divide data into 80% training, 20% testing.
train_indices = list(range(40)) + list(range(50,90))
test_indices = list(range(40,50)) + list(range(90,100))
X_train = X[train_indices]
X_test = X[test_indices]
y_train = Y[train_indices]
y_test = Y[test_indices]


###########################################################################
###### Convert categorical variable to matrix and merge back with training
###### data.

# Fake categorical variable.
catVar = np.array(['a']*40 + ['b']*40)
catVar = categorical(catVar, drop=True)
X_train = np.concatenate((X_train, catVar), axis = 1)

catVar = np.array(['a']*10 + ['b']*10)
catVar = categorical(catVar, drop=True)
X_test = np.concatenate((X_test, catVar), axis = 1)
###########################################################################

# Model and test.
clf = GradientBoostingClassifier(learning_rate=0.01,max_depth=8,n_estimators=50).fit(X_train, y_train)

prob = clf.predict_proba(X_test)[:,1]   # Only look at P(y==1).

fpr, tpr, thresholds = roc_curve(y_test, prob)
roc_auc_prob = auc(fpr, tpr)

print(prob)
print(y_test)
print(roc_auc_prob)

感谢Andreas Muller指示熊猫数据帧不应用于scikit学习估计器。

相关问题更多 >

编程相关推荐

热门问题

热门文章