基于SNLI数据的句子分类

2024-10-02 12:31:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为句子分类任务研究SNLI数据集here。此数据集包含两个句子,并且需要判断第二个句子是否包含相矛盾还是中性。在

为了进行分类,我实现了基于连续矩阵的支持向量机分类,准确率在70%左右。在

有人可以建议任何其他NLP相关的分类策略,即使用bigrams或trigrams,因为我需要找到一些基线。在


Tags: 数据herenlp分类矩阵策略向量建议
1条回答
网友
1楼 · 发布于 2024-10-02 12:31:30

您应该考虑使用k-means集群,对于这种类型的任务来说,这听起来有点不传统,但是按照下面的方法使用它,您可能会得到一个可靠的基线结果。在

  1. 取训练集中每个类别的单词平均包向量,在你的例子中,你将得到三个向量,并用它来训练k=3的k-means模型。在
  2. 然后,在确定哪个“标签”与每个类别相对应(例如,通过预测我们刚刚计算的三个平均向量中的每一个的类别并看到它们的每个标签),使用模型来预测测试集。在

(可选)您可以通过对训练数据运行PCA来进一步提高模型的精度。这基本上与你的特征脱节,这可以减少噪音。在

相关问题 更多 >

    热门问题