2024-06-25 22:37:37 发布
网友
当我们有离散变量,比如年龄、病假数量、家庭中孩子数量和缺勤数量,我想用二元结果建立一个预测模型,那么将这些变量和其他数值连续变量纳入标准化或规范化过程可以吗
或者我应该将这些离散变量分类为一个分类变量,并将它们转换为虚拟变量
如果它们不是目标变量之一,则可以将这些变量与其他数值连续变量一起纳入标准化或规范化过程
不可以。这些变量应被视为分类变量。您可以规范化您的数字变量,然后您需要对分类变量进行分类编码。一种编码方法
pd.get_dummies(df['key']) #and then delete one of the dummy variables, to avoid the multi-collinearity problem
使用sklearnmethod的另一种方法
sklearn
from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder() data = enc.fit_transform(df['key'])
只需确保您只适合培训样本上的数据。然后对训练集和测试集进行转换
如果它们不是目标变量之一,则可以将这些变量与其他数值连续变量一起纳入标准化或规范化过程
不可以。这些变量应被视为分类变量。您可以规范化您的数字变量,然后您需要对分类变量进行分类编码。一种编码方法
使用
sklearn
method的另一种方法只需确保您只适合培训样本上的数据。然后对训练集和测试集进行转换
相关问题 更多 >
编程相关推荐