离散变量的标准化或规范化?

2024-06-25 22:37:37 发布

您现在位置:Python中文网/ 问答频道 /正文

当我们有离散变量,比如年龄、病假数量、家庭中孩子数量和缺勤数量,我想用二元结果建立一个预测模型,那么将这些变量和其他数值连续变量纳入标准化或规范化过程可以吗

或者我应该将这些离散变量分类为一个分类变量,并将它们转换为虚拟变量


Tags: 模型数量过程家庭分类孩子规范化数值
2条回答

如果它们不是目标变量之一,则可以将这些变量与其他数值连续变量一起纳入标准化或规范化过程

不可以。这些变量应被视为分类变量。您可以规范化您的数字变量,然后您需要对分类变量进行分类编码。一种编码方法

pd.get_dummies(df['key'])

#and then delete one of the dummy variables, to avoid the multi-collinearity problem

使用sklearnmethod的另一种方法

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder()
data = enc.fit_transform(df['key'])

只需确保您只适合培训样本上的数据。然后对训练集和测试集进行转换

相关问题 更多 >