在python中如何使用决策树中的分类数据 - 问答 - Python中文网

在python中如何使用决策树中的分类数据

2024-10-01 11:23:15 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据集，我从中提取了12个特征，用于使用决策树进行共指消解。这些功能的一些示例包括：

distance_feature（）：i和j之间的距离，取决于句子的数量。输出：0或1
- Ispronoun_feature（）：如果名词短语是代词，则此功能设置为true。
- appositive\u feature（）：此功能检查j是否与{}并置。

在创建了所有这些特性以从数据集中提取结果之后，我不知道如何选择根节点，也不知道如何使用sci-kit-learn决策树算法，因为数据不是结构化的，是分类的。我读过的一篇文章提到了熵和信息增益，但是这两个属性的所有例子都是基于结构化数据集的。在

Tags：数据功能决策树距离示例数量特征 feature

2条回答

网友

1楼 · 编辑于 2024-10-01 11:23:15

使用一个热编码。在

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果列太多，可以对列进行预处理以删除不常见的值，例如小于1%以避免列太多。在

网友

2楼 · 编辑于 2024-10-01 11:23:15

如果您有不同类别的不同特性，并且不想自己花时间对它们进行编码，我建议您使用CatBoost框架，它也比标准的scikit树实现更快。在

请检查此kaggle的实现！在

相关问题更多 >

编程相关推荐

热门问题

热门文章