2024-09-19 20:35:50 发布
网友
在学习Doc2Vec库时,我遇到了以下问题。在
gensim Doc2Vec是否区分同一个句子的正负语境?
例如:
句子A:“我喜欢机器学习”
B句:“我不喜欢机器学习”
如果我用doc2vec训练句子A和B,发现它们向量之间的余弦相似性:
另外,如果我只训练句子A,并尝试推断句子B,两个向量在向量空间中是否会彼此接近。?在
我会请求NLP社区和Doc2Vec专家帮助我理解这一点。在
提前谢谢!!在
本质上,gensimDoc2Vec背后的“段落向量”算法所做的就是找到一个向量(与神经网络一起)擅长预测文本中出现的单词。所以是的,单词几乎相同的文本会有非常接近的向量。(没有句法上的理解,某些词,在某些地方,有很大的逆转作用。)
Doc2Vec
然而,在情绪分析中,即使是这样的向量也可以(尽管不是最先进的)。最初的“段落向量”论文评估向量可用性的方法之一是估计短片电影评论的情绪。(这些比一个句子长,可以变成几百个单词)在doc向量上训练分类器时,分类器在估计评论的负面/积极性方面做得非常好,而且比其他基线技术要好。在
你的单句,微小的,做作的句子可能更难——它们很短,只有几个单词的区别,所以向量会非常接近。但这些不同的词(尤其是'not')通常都是情绪的象征,所以微小的差异可能足以将向量从“积极”区域转移到“负面”区域。在
'not'
因此,您必须尝试一下,使用一个由上万个不同文本示例组成的真实训练语料库(因为这种技术在玩具大小的数据集上不太有效)和后向量化分类器步骤。在
还请注意,在纯Doc2Vec中,在训练过程中添加已知的标签(如“阳性”或“阴性”),有时可以帮助生成的向量空间对所需的区别更加敏感。另外,其他变体技术,如“快速文本”或“星际空间”更直接地将已知标签整合到矢量化中,这可能会有所帮助。在
然而,对短句的最好结果可能会考虑到单词的相对顺序和语法分析。你可以在斯坦福大学NLP研究小组的一个页面上看到这种更先进技术的演示:
http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
尽管在评论中可以看到各种各样的困难案例的例子,但它仍然在努力解决。在
本质上,gensim
Doc2Vec
背后的“段落向量”算法所做的就是找到一个向量(与神经网络一起)擅长预测文本中出现的单词。所以是的,单词几乎相同的文本会有非常接近的向量。(没有句法上的理解,某些词,在某些地方,有很大的逆转作用。)然而,在情绪分析中,即使是这样的向量也可以(尽管不是最先进的)。最初的“段落向量”论文评估向量可用性的方法之一是估计短片电影评论的情绪。(这些比一个句子长,可以变成几百个单词)在doc向量上训练分类器时,分类器在估计评论的负面/积极性方面做得非常好,而且比其他基线技术要好。在
你的单句,微小的,做作的句子可能更难——它们很短,只有几个单词的区别,所以向量会非常接近。但这些不同的词(尤其是
'not'
)通常都是情绪的象征,所以微小的差异可能足以将向量从“积极”区域转移到“负面”区域。在因此,您必须尝试一下,使用一个由上万个不同文本示例组成的真实训练语料库(因为这种技术在玩具大小的数据集上不太有效)和后向量化分类器步骤。在
还请注意,在纯
Doc2Vec
中,在训练过程中添加已知的标签(如“阳性”或“阴性”),有时可以帮助生成的向量空间对所需的区别更加敏感。另外,其他变体技术,如“快速文本”或“星际空间”更直接地将已知标签整合到矢量化中,这可能会有所帮助。在然而,对短句的最好结果可能会考虑到单词的相对顺序和语法分析。你可以在斯坦福大学NLP研究小组的一个页面上看到这种更先进技术的演示:
http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
尽管在评论中可以看到各种各样的困难案例的例子,但它仍然在努力解决。在
相关问题 更多 >
编程相关推荐