<p>如果你对比较句子感兴趣,Word2Vec不是最好的选择。结果表明,使用它来创建句子嵌入产生的结果不如专用的句子嵌入算法。如果您的数据集不是很大,则无法使用自己的数据创建(训练新的)嵌入空间。这迫使您对句子使用预先训练过的嵌入。幸运的是,现在这些已经足够了。我相信通用句子编码器(谷歌)将最适合您的需要</p>
<p>一旦你得到了你的句子的向量表示,你可以走两条路:</p>
<ol>
<li>创建一个成对比较矩阵,并将其可视化为热图。当你有一些关于句子有多接近的先验知识,并且你想检查你的假设时,这种表述是有用的。你甚至可以<a href="https://jinglescode.github.io/textual-similarity-universal-sentence-encoder/" rel="nofollow noreferrer">try it online</a>。
<a href="https://i.stack.imgur.com/z0CqK.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/z0CqK.png" alt="enter image description here"/></a></li>
<li>在向量表示上运行t-SNE。这将创建句子的二维投影,从而保持句子之间的相对距离。它比主成分分析更好地呈现数据。你可以很容易地找到某句话的邻居:
<a href="https://i.stack.imgur.com/zRieX.gif" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/zRieX.gif" alt="enter image description here"/></a></li>
</ol>
<p>你可以从<a href="https://jinglescode.github.io/2020/02/10/build-textual-similarity-analysis-web-app/" rel="nofollow noreferrer">this</a>和<a href="https://medium.com/oneassist-tech-blog/visualizing-context-with-googles-universal-sentence-encoder-and-graphdb-c5f92b2f3db3" rel="nofollow noreferrer">this</a>中学到更多</p>