gensim Doc2Vec是否能区分同一个句子的正负语境。？

1条回答

网友

1楼 · 发布于 2024-09-19 20:35:50

本质上，gensimDoc2Vec背后的“段落向量”算法所做的就是找到一个向量（与神经网络一起）擅长预测文本中出现的单词。所以是的，单词几乎相同的文本会有非常接近的向量。（没有句法上的理解，某些词，在某些地方，有很大的逆转作用。）

然而，在情绪分析中，即使是这样的向量也可以（尽管不是最先进的）。最初的“段落向量”论文评估向量可用性的方法之一是估计短片电影评论的情绪。（这些比一个句子长，可以变成几百个单词）在doc向量上训练分类器时，分类器在估计评论的负面/积极性方面做得非常好，而且比其他基线技术要好。在

你的单句，微小的，做作的句子可能更难——它们很短，只有几个单词的区别，所以向量会非常接近。但这些不同的词（尤其是'not'）通常都是情绪的象征，所以微小的差异可能足以将向量从“积极”区域转移到“负面”区域。在

因此，您必须尝试一下，使用一个由上万个不同文本示例组成的真实训练语料库（因为这种技术在玩具大小的数据集上不太有效）和后向量化分类器步骤。在

还请注意，在纯Doc2Vec中，在训练过程中添加已知的标签（如“阳性”或“阴性”），有时可以帮助生成的向量空间对所需的区别更加敏感。另外，其他变体技术，如“快速文本”或“星际空间”更直接地将已知标签整合到矢量化中，这可能会有所帮助。在

然而，对短句的最好结果可能会考虑到单词的相对顺序和语法分析。你可以在斯坦福大学NLP研究小组的一个页面上看到这种更先进技术的演示：

尽管在评论中可以看到各种各样的困难案例的例子，但它仍然在努力解决。在