擅长:python、mysql、java
<p><strong>Doc2Vec概念</strong>:</p>
<p>无论文档的长度如何,文档的目标都是创建一个数字表示。但与单词不同的是,文档不是以单词这样的逻辑结构出现的,因此必须找到另一种方法。在</p>
<p>Mikolov和Le使用的概念很简单,但很聪明:他们使用了word2vec模型,并添加了另一个向量<code>paragraph_ID</code>,这是文档唯一的。现在,我们不再使用单词来预测下一个单词,而是添加了另一个特征向量。在</p>
<p>因此,在训练单词向量<code>W</code>时,文档向量{<cd1>}也会被训练,并且在训练的最后,它保存文档的数字表示。在</p>
<p>你可以阅读更多关于它的<a href="https://medium.com/scaleabout/a-gentle-introduction-to-doc2vec-db3e8c0cce5e" rel="nofollow noreferrer">here</a></p>