如何解决Python中的开集分类问题？

xtrain, xtest, ytrain, ytest = train_test_split(emb_train, gtrain *or* ytrain, test_size=0.3) classifier=RandomForestClassifier(n_estimators=5) classifier.fit(xtrain, ytrain.ravel()) ypred=classifier.predict(emb_test)

1条回答

网友
1楼 · 发布于 2024-06-28 19:16:00

如果gtrain是y_train的父标签（IIUC，为了可视化所有标签，我们可以将属标签的节点与其对应的物种子标签连接到一个深度2树中），我们可以在训练时学习预测属标签和物种标签。如果我这样做，我将简单地使用属标签空间和种标签空间连接标签输出
让我们假设你的属空间是100（你有100个独特的属类别），你的物种空间是1000（你在所有属中有1000个独特的物种）
Your gtrain is 1x16128, this could be transformed to 100x16128 one hot-vector per row. Your ytrain is 1x16128, this could be transformed to 1000x16128 one hot-vector per row. After concatenation, you have a label with shape [1100, 16128].
你可以建立一个模型，使用1000维的输入嵌入，连接到几个隐藏的完全连接的神经网络层，最后连接到1100维的输出
在培训时，在每个步骤中，挑选一小批示例（例如，总共16128个示例中的64个示例）
input: 64 x 1000 (batch size x embedding dimension) output: 64 x 1100 (batch size x output label dimension)
简单地减少输出时的交叉熵损失。在预测时，您可以使用一些启发式方法。比如说,
基于物种产量的置信度。如果来自物种输出节点的所有Logit都较低（阈值可以通过验证数据集确定），则您可能无法在物种级别预测任何内容，但可以从属Logit中选择顶部预测
考虑在属级逻辑和种级逻辑预测上的相互一致性。IIUC，假设一个属标签具有非常高的logit，但所有相应的物种logit都较低（反之亦然），这可被视为“不一致”，从而触发不预测物种标签而仅预测属级标签的逻辑
编辑：我还查看了使用随机林的代码。在这种情况下，您可以使用与输入相同的嵌入功能构建两个分类器，一个预测到属标签，另一个预测到种标签。在推理时，并行运行两个分类器，并获得属级预测和种级预测。然后您可以使用上面类似的启发式方法来决定最终的预测

相关问题更多 >

编程相关推荐

热门问题

热门文章