gensim Doc2Vec是否能区分同一个句子的正负语境。?

2024-09-19 20:35:50 发布

您现在位置:Python中文网/ 问答频道 /正文

在学习Doc2Vec库时,我遇到了以下问题。在

gensim Doc2Vec是否区分同一个句子的正负语境?

例如:

句子A:“我喜欢机器学习”

B句:“我不喜欢机器学习”

如果我用doc2vec训练句子A和B,发现它们向量之间的余弦相似性:

  1. 模型是否能够区分句子并给出非常小于1的余弦相似度或负值?在
  2. 或者,模型会在向量空间中非常接近地表示两个句子,并给出接近1的余弦相似度,因为除了否定词(don not)之外,大多数单词都是相同的。在

另外,如果我只训练句子A,并尝试推断句子B,两个向量在向量空间中是否会彼此接近。?在

我会请求NLP社区和Doc2Vec专家帮助我理解这一点。在

提前谢谢!!在


Tags: 模型机器not空间相似性单词向量句子
1条回答
网友
1楼 · 发布于 2024-09-19 20:35:50

本质上,gensimDoc2Vec背后的“段落向量”算法所做的就是找到一个向量(与神经网络一起)擅长预测文本中出现的单词。所以是的,单词几乎相同的文本会有非常接近的向量。(没有句法上的理解,某些词,在某些地方,有很大的逆转作用。)

然而,在情绪分析中,即使是这样的向量也可以(尽管不是最先进的)。最初的“段落向量”论文评估向量可用性的方法之一是估计短片电影评论的情绪。(这些比一个句子长,可以变成几百个单词)在doc向量上训练分类器时,分类器在估计评论的负面/积极性方面做得非常好,而且比其他基线技术要好。在

你的单句,微小的,做作的句子可能更难——它们很短,只有几个单词的区别,所以向量会非常接近。但这些不同的词(尤其是'not')通常都是情绪的象征,所以微小的差异可能足以将向量从“积极”区域转移到“负面”区域。在

因此,您必须尝试一下,使用一个由上万个不同文本示例组成的真实训练语料库(因为这种技术在玩具大小的数据集上不太有效)和后向量化分类器步骤。在

还请注意,在纯Doc2Vec中,在训练过程中添加已知的标签(如“阳性”或“阴性”),有时可以帮助生成的向量空间对所需的区别更加敏感。另外,其他变体技术,如“快速文本”或“星际空间”更直接地将已知标签整合到矢量化中,这可能会有所帮助。在

然而,对短句的最好结果可能会考虑到单词的相对顺序和语法分析。你可以在斯坦福大学NLP研究小组的一个页面上看到这种更先进技术的演示:

http://nlp.stanford.edu:8080/sentiment/rntnDemo.html

尽管在评论中可以看到各种各样的困难案例的例子,但它仍然在努力解决。在

相关问题 更多 >