擅长:python、mysql、java
<p>Gensim实现了两个词向量模型:</p>
<ol>
<li>跳过克</li>
<li>CBOW公司</li>
</ol>
<p>两者的区别在于如何使用特征化和标签来训练单词向量模型。你知道吗</p>
<p>这两个模型都是在令牌上下文上训练的,以便将令牌自动编码到一个连续的语义向量空间中。你知道吗</p>
<h2>跳过克</h2>
<p>训练的输入是上下文窗口n-grams,而预测的标签是第n个标记。你知道吗</p>
<p>如果我们使用bigram上下文窗口,输入向量将使用标记</p>
<pre><code>[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]
</code></pre>
<p>要预测的标签是</p>
<pre><code>Token_n
</code></pre>
<h2>CBOW公司</h2>
<p>训练的输入是上下文窗口n-grams,而预测的标签是第n个标记。你知道吗</p>
<p>如果我们使用bigram上下文窗口,输入向量将使用标记</p>
<pre><code>Token_n
</code></pre>
<p>要预测的标签是</p>
<pre><code>[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]
</code></pre>
<h2>目的是什么?你知道吗</h2>
<p>显然,这是一个严重的过于简单化,但它帮助我们问,什么是单词向量模型做的?你知道吗</p>
<p>在gensim中实现单词向量模型的目的是什么?你知道吗</p>
<p>这两个模型为给定的标记编码<em>语义上下文</em>。你知道吗</p>
<p>因此,询问模型中有多少相似的单词应该与他们训练的上下文成正比。你知道吗</p>
<h2>TL;博士</h2>
<p>WV模型在表示中对单词上下文进行编码。你知道吗</p>
<p>因此,词语的相似性并不与它们的数量成正比,而是与它们出现的语境成正比。你知道吗</p>