<p>请注意,word2vec本身并不是一种建模句子的方法,只是一种文字。因此,没有一种单一的、官方的方式使用word2vec来表示句子</p>
<p>一次快速&;粗略的方法是通过将所有单词向量平均在一起,为句子(或其他多单词文本)创建一个向量。它速度快,总比没有好,在一些简单的(广泛的主题)任务上做得很好,但不能很好地捕捉文本的全部含义,特别是任何依赖于语法、多义词或复杂上下文提示的含义</p>
<p>尽管如此,您仍然可以使用它为每个短文本获取一个固定大小的向量,并计算这些向量之间的成对相似性/距离,并将结果输入到降维算法中,用于可视化或其他目的</p>
<p>其他算法实际上为较长的文本创建向量。与word2vec密切相关的一个浅层算法是“段落向量”,在Gensim中作为<code>Doc2Vec</code>类提供。但它仍然不是很复杂,仍然不懂语法。许多更深层次的网络文本模型,如BERT、ELMo和;其他可能是可能性</p>
<p>Word2vec&;相关的算法非常需要数据:它们所有的优点都来自于同一个单词的许多不同用法示例之间的拔河。因此,如果你有一个玩具大小的数据集,你将无法得到一组具有有用的相互关系的向量</p>
<p>但是,更大数据集中的稀有词也不会得到好的向量。在训练中,丢弃出现在某些<code>min_count</code>频率以下的单词是很典型的,因为它们的向量很差,仅仅是一个或几个特殊的样本使用,而且因为总共有许多这样的代表性不足的单词,保留它们往往会使其他<em>单词向量更差,也它们是噪音</p>
<p>因此,您提出的想法是以<code>travel</code>的<em>个体</em>为例&;用单个外观标记替换它们很可能会产生有趣的结果。将<code>min_count</code>降低为1将得到每个变体的向量-但它们的质量比其他单词向量差得多(更随机),与其他单词相比,它们受到的训练关注相对较少,并且每个都完全受周围几个单词的影响(而不是可能有助于对统一<code>travel</code>标记进行有用定位的所有周围上下文的整个范围)</p>
<p>(通过(1)保留句子的原始版本,因此仍然可以得到一个<code>travel</code>向量,可以稍微抵消这些问题;(2)多次重复你的标记性错误句子,并在整个语料库中显示它们,以在某种程度上模拟合成上下文的更真实的出现。但如果没有真正的变化,这种单一上下文向量的大部分问题将仍然存在。)</p>
<p>比较<code>travel_sent_A</code>、<code>travel_sent_B</code>等的另一种可能方法是完全忽略<code>travel</code>或<code>travel_sent_X</code>的确切向量,而是为单词周围的N个单词编译一个摘要向量。例如,如果您有100个单词<code>travel</code>,创建100个向量,每个向量都是</em>travel周围的N个单词<em>。这些向量可能会显示一些模糊的簇/邻域,特别是在一个具有非常不同的交替含义的单词的情况下。(一些研究采用word2vec来解释多义现象,使用这种^{<cd12>)影响/选择交替词义的方法。)</p>
<p>你可能也会发现,这项关于从话语的交替“原子”中提取词语的建模研究很有趣:<a href="http://www.offconvex.org/2016/07/10/embeddingspolysemy/" rel="nofollow noreferrer">Linear algebraic structure of word meanings</a></p>
<p>如果你有类似于标题的短文本,并且只有单词向量(没有数据或算法进行更深入的建模),你可能还想研究用于比较文本的“单词移动距离”计算。它不是将单个文本缩减为单个向量,而是将其建模为“一包文本”然后,它将距离定义为将一个袋子转换为另一个袋子的成本。(相似性越高的单词比相似性越低的单词更容易相互转换,因此非常相似的表达式,只替换了几个同义词,则表示非常接近。)</p>
<p>计算较长的文本可能会非常昂贵,但对于短短语和小标题/推文集/等可能很有效。它在Gensim<code>KeyedVector</code>类中作为<a href="https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.FastTextKeyedVectors.wmdistance" rel="nofollow noreferrer">^{<cd14>}</a>提供。在本文中,它可能有助于发现各种关联:<a href="http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/" rel="nofollow noreferrer">Navigating themes in restaurant reviews with Word Mover’s Distance</a></p>