如何将pandas数据帧转换为sklearn一个热编码(dataframe/numpy数组),其中有些列不需要编码?在
mydf = pd.DataFrame({'Target':[0,1,0,0,1, 1,1],
'GroupFoo':[1,1,2,2,3,1,2],
'GroupBar':[2,1,1,0,3,1,2],
'GroupBar2':[2,1,1,0,3,1,2],
'SomeOtherShouldBeUnaffected':[2,1,1,0,3,1,2]})
columnsToEncode = ['GroupFoo', 'GroupBar']
是一个已经被标签编码的数据帧,我只想对columnsToEncode
标记的列进行编码?在
我的问题是我不确定pd.Dataframe
或numpy
数组表示是否更好,以及如何将编码部分与另一部分重新合并。在
我目前的尝试:
^{pr2}$注意:我知道Pandas: Get Dummies/http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html,但这在我要求每次进行这样的编码的训练/测试分割中不起作用。在
这个库提供了几个分类编码器,使sklearn/numpy可以很好地与pandashttps://github.com/wdm0006/categorical_encoding配合使用
但是,它们还不支持“处理未知类别”
现在我要用
因为它支持未知的数据集。现在,我会坚持一半熊猫一半纽比,因为熊猫标签不错。对于数字列。在
我相信,为了执行虚拟编码,对初始答案的更新甚至更好 导入日志记录
相关问题 更多 >
编程相关推荐