如何在两个不同的数据集中将字符串变量转换为分类变量，并保持相同的转换？

2条回答

网友

1楼 · 编辑于 2024-10-01 17:30:18

通常，当您确定或知道类别之间存在“有序”关系时，建议使用OrdinalCoder。例如，等级F、B-、B、A-和A：对于每一个等级，编码为1、2、3、4、5是有意义的，其中等级越高，权重越高（以编码类别的形式）

在您当前的情况下，最好在拆分为训练/测试数据集之前为国家/地区列使用OneHot编码器

网友

2楼 · 编辑于 2024-10-01 17:30:18

import numpy as np                                                                   
from sklearn.preprocessing import OrdinalEncoder                                     

X_train = np.array(["USA", "Sweden", "USA"], dtype=object).reshape(-1, 1)            
X_test = np.array(["Sweden", "USA"], dtype=object).reshape(-1, 1)                    

encoder = OrdinalEncoder()                                                           
encoder.fit(X_train)                                                                 

encoder.transform(X_train)                                                    
encoder.transform(X_test)

如果您认为测试中可能存在未知类别，您可以在进行培训/测试拆分之前记录所有类别：

categories = [np.unique(np.vstack([X_train[:, [i]], X_test[:, [i]]]))                
              for i in range(X_train.shape[1])]                                      

encoder = OrdinalEncoder(categories=categories)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在两个不同的数据集中将字符串变量转换为分类变量，并保持相同的转换？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >