想知道pd.factorize，pd.get_dummies，sklearn.preprocessing.labeencoder和OneHotEncod之间的区别

1条回答

网友

1楼 · 发布于 2024-09-22 16:34:49

这四个编码器可以分为两类：

将标签编码为分类变量：Pandasfactorize和scikit learnLabelEncoder。结果将有1维。
将分类变量编码为伪/指示符（二进制）变量：Pandasget_dummies和scikit learnOneHotEncoder。结果将有n个维度，每个维度由编码的分类变量的不同值组成。

pandas和scikit-learn编码器的主要区别在于scikit-learn编码器被用于带有fit和transform方法的scikit-learn管道中。

将标签编码为分类变量

熊猫factorize和scikit learn LabelEncoder属于第一类。它们可用于创建分类变量，例如将字符转换为数字。

from sklearn import preprocessing    
# Test data
df = DataFrame(['A', 'B', 'B', 'C'], columns=['Col'])    
df['Fact'] = pd.factorize(df['Col'])[0]
le = preprocessing.LabelEncoder()
df['Lab'] = le.fit_transform(df['Col'])

print(df)
#   Col  Fact  Lab
# 0   A     0    0
# 1   B     1    1
# 2   B     1    1
# 3   C     2    2

将分类变量编码为伪/指示符（二进制）变量

熊猫get_dummies和scikit learn OneHotEncoder属于第二类。它们可以用来创建二进制变量。OneHotEncoder只能与分类整数一起使用，而get_dummies可以与其他类型的变量一起使用。

df = DataFrame(['A', 'B', 'B', 'C'], columns=['Col'])
df = pd.get_dummies(df)

print(df)
#    Col_A  Col_B  Col_C
# 0    1.0    0.0    0.0
# 1    0.0    1.0    0.0
# 2    0.0    1.0    0.0
# 3    0.0    0.0    1.0

from sklearn.preprocessing import OneHotEncoder, LabelEncoder
df = DataFrame(['A', 'B', 'B', 'C'], columns=['Col'])
# We need to transform first character into integer in order to use the OneHotEncoder
le = preprocessing.LabelEncoder()
df['Col'] = le.fit_transform(df['Col'])
enc = OneHotEncoder()
df = DataFrame(enc.fit_transform(df).toarray())

print(df)
#      0    1    2
# 0  1.0  0.0  0.0
# 1  0.0  1.0  0.0
# 2  0.0  1.0  0.0
# 3  0.0  0.0  1.0

我还根据这个答案写了一个更详细的post。

将标签编码为分类变量

将分类变量编码为伪/指示符（二进制）变量

相关问题更多 >

编程相关推荐

热门问题

热门文章

想知道pd.factorize，pd.get_dummies，sklearn.preprocessing.labeencoder和OneHotEncod之间的区别

将标签编码为分类变量

将分类变量编码为伪/指示符（二进制）变量

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >