如何用特征维数变化的数据集训练sklearn分类器?

2024-09-29 19:05:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个这样的数据集。你知道吗

Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal
------------------------------------------------------------------
   Bread     |   Butter     |       -      |       -      | buttered bread
   Avocado   |   Tomato     |     Garlic   |       -      | Guacamloe

我想用它来训练sklearn决策树分类器,但是我不知道如何处理我的数据集的不同特征维数。理想情况下,我希望空单元格被忽略。我想用nan的替换空单元格,但是sklearn不接受nan的。有没有办法用sklearn使用这样的数据集?你知道吗


Tags: 数据决策树分类器sklearnnaningredientbuttertomato
1条回答
网友
1楼 · 发布于 2024-09-29 19:05:05

您应该将数据编码为如下向量:

(Avocado, Bread, Butter, Garlic, Tomato)
(0,1,1,0,0) = 'Buttered Bread'
(1,0,0,1,1) = 'Guacamloe'

向量中的每个元素表示特定成分的存在。您可以将这种格式的数据直接输入到任何分类器中,并且不会出现隐式排序的问题。你知道吗

相关问题 更多 >

    热门问题