擅长:python、mysql、java
<p>请注意,<code>Doc2Vec</code>为您提供的每个<code>tag</code>学习向量。如果需要为每个文档指定一个唯一的向量,那么应该为每个文档指定一个唯一的ID标记。你知道吗</p>
<p>另一方面,如果您有1000个文档,但它们只重用100个标记,<code>Doc2Vec</code>只学习100个标记向量。基本上,所有用同一标签提交的文本都被视为一个单一的、组合的虚拟文档,即使它们是分开传递的。你知道吗</p>
<p>(您可以使用这些合并文档进行训练,但之后使用<code>infer_vector()</code>为每个文本推断新的唯一向量,而不是查找在批量训练中学习的向量。)</p>
<p>另外,请注意,大多数已发表的<code>Doc2Vec</code>工作使用10个或更多的培训时段。而且,特别是对于较小的微粒(在文档计数或文本的典型大小中),更多的<code>epochs</code>会有帮助。但是调用<code>Doc2Vec</code>的方式将使用其默认的<code>epochs=5</code>(从与<code>Word2Vec</code>共享的代码继承)。你知道吗</p>