<p>如果你“精简”了一个单词的示例上下文,而不是其他单词的示例上下文,那么相似度肯定会改变。你知道吗</p>
<p>Word2Vec依赖于有许多不同的单词用法示例。训练过程一次只考虑同时发生的单个例子。(在流行的skip-gram模式中,只有一个<code>context-word -> target-word</code>示例)。你知道吗</p>
<p>训练重复地向神经网络呈现单一的上下文,沿着一些有趣的路径子集检查网络的响应,并通过改变网络的内部权重和定义单词向量的“投影权重”来稍微推动网络做得更好。你知道吗</p>
<p>它是所有这些更新的聚合效果,经过多次迭代,最终将每个单词的向量推到一个有用的位置,而不是其他向量。(这是改进一些示例和改进其他示例之间的“拉锯战”。)</p>
<p>任何改变例子组合的东西都会改变最终结果。特别是,如果单词<code>A</code>的例子总体上较少,那么使模型在包括<code>A</code>在内的上下文中表现良好所花费的总体训练时间将更少。它的最终位置,以及相关的权重,将更多地受到其他词更多例子的影响。你知道吗</p>
<p>此外,缩小<code>A</code>的例子实际上也改变了它与所有单词的共现率。更少的<code>A</code>上下文意味着<code>A -> B</code>和<code>B -> A</code>上下文的数量也会改变,这也会改变单词<code>B</code>的最终位置。这适用于所有其他单词<code>C</code>,<code>D</code>,等与<code>A</code>同时出现的词,尤其是当某些上下文比其他上下文更稀疏时。(在<code>A</code>的新发行版示例中,'context 2'出现的频率为5000分之一,而'context 3'出现的频率为1000分之一。)</p>
<p>请注意,在大多数Word2Vec实现中都有一个频繁字下采样功能,通常由名为<code>sample</code>的参数控制,该参数故意丢弃非常频繁字的许多外观。这确实有意地改变了训练语料库中单词的相对频率。你知道吗</p>
<p>与不进行下采样相比,在这里选择一个合适的值有助于速度训练和提高最终单词向量的质量。为什么?一旦你有了成百上千个不同的频繁词的例子,额外的边缘例子并不能帮助你提高这个词的水平,但是它花费了更多的时间,而且总的来说,训练时间的比例更高,从而改善了那些频繁词的模型。这些单词的微小改进,在许多例子中,必然是按照上面描述的过程进行的,而不是用更罕见的例子对更多的单词进行改进。丢弃一些“过度频繁”的单词可以让其他单词对模型的最终状态产生更大的相对影响,甚至可以有效地缩小稀有单词之间的有效上下文距离(当更频繁的中间单词被丢弃时)。你知道吗</p>