我有一个这样的数据集。你知道吗
Ingredient_A | Ingredient_B | Ingredient_C | Ingredient_D | Meal
------------------------------------------------------------------
Bread | Butter | - | - | buttered bread
Avocado | Tomato | Garlic | - | Guacamloe
我想用它来训练sklearn决策树分类器,但是我不知道如何处理我的数据集的不同特征维数。理想情况下,我希望空单元格被忽略。我想用nan的替换空单元格,但是sklearn不接受nan的。有没有办法用sklearn使用这样的数据集?你知道吗
您应该将数据编码为如下向量:
向量中的每个元素表示特定成分的存在。您可以将这种格式的数据直接输入到任何分类器中,并且不会出现隐式排序的问题。你知道吗
相关问题 更多 >
编程相关推荐