擅长:python、mysql、java
<p>我认为您误解了<code>tags</code>字段表示的内容,因为您似乎暗示您的一些文档共享标记,但您希望每个文档有一个向量。标记主要用于索引文档,建议每个文档都有其唯一的标记ID</p>
<p>根据文件:</p>
<blockquote>
<p>Tags may be one or more unicode string tokens, but <strong>typical practice</strong> (which will also be the most memory-efficient) <strong>is for the tags list to include a unique integer id as the only tag</strong>.</p>
</blockquote>
<p>这是因为doc2vec每个<em>标签</em>学习一个向量,而doc2vec的典型用例需要每个<em>文档</em>学习一个向量。该算法将共享标签的两个文档有效地处理为一分为二的文档。你知道吗</p>
<p>在您的例子中,您可以使用<code>i</code>作为文档标记,或者如果您的文本列表变得太大而无法一次保存在内存中,那么您可以使用更复杂的方法来轻松地从硬盘中检索相关文件。你知道吗</p>