在python中如何使用决策树中的分类数据

2024-10-01 11:23:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集,我从中提取了12个特征,用于使用决策树进行共指消解。这些功能的一些示例包括:

  • distance_feature():i和j之间的距离,取决于句子的数量。输出:0或1

    • Ispronoun_feature():如果名词短语是代词,则此功能设置为true。

    • appositive\u feature():此功能检查j是否与{}并置。

在创建了所有这些特性以从数据集中提取结果之后,我不知道如何选择根节点,也不知道如何使用sci-kit-learn决策树算法,因为数据不是结构化的,是分类的。我读过的一篇文章提到了熵和信息增益,但是这两个属性的所有例子都是基于结构化数据集的。在


Tags: 数据功能决策树距离示例数量特征feature
2条回答

使用一个热编码。在

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果列太多,可以对列进行预处理以删除不常见的值,例如小于1%以避免列太多。在

如果您有不同类别的不同特性,并且不想自己花时间对它们进行编码,我建议您使用CatBoost框架,它也比标准的scikit树实现更快。在

请检查此kaggle的实现!在

相关问题 更多 >