我有一个数据集,我从中提取了12个特征,用于使用决策树进行共指消解。这些功能的一些示例包括:
distance_feature():i和j之间的距离,取决于句子的数量。输出:0或1
Ispronoun_feature():如果名词短语是代词,则此功能设置为true。
appositive\u feature():此功能检查j
是否与{
在创建了所有这些特性以从数据集中提取结果之后,我不知道如何选择根节点,也不知道如何使用sci-kit-learn决策树算法,因为数据不是结构化的,是分类的。我读过的一篇文章提到了熵和信息增益,但是这两个属性的所有例子都是基于结构化数据集的。在
使用一个热编码。在
如果列太多,可以对列进行预处理以删除不常见的值,例如小于1%以避免列太多。在
如果您有不同类别的不同特性,并且不想自己花时间对它们进行编码,我建议您使用CatBoost框架,它也比标准的scikit树实现更快。在
请检查此kaggle的实现!在
相关问题 更多 >
编程相关推荐