擅长:python、mysql、java
<p>是的,可以为每个文档提供多个标记,这就是为什么<code>TaggedDocument</code>的<code>tags</code>属性应该是一个列表,以及为什么用来引用已学文档向量的键被称为“tag”而不是“id”。(虽然gensim<code>Doc2Vec</code>所依据的原始“段落向量”论文仅使用每个文档的一个唯一标识符来描述,但这是一个自然的扩展。)</p>
<p>要获得任何doc向量,必须通过模型的<code>docvecs</code>属性而不是模型本身来访问它。(从<code>Word2Vec</code>继承功能的模型本身将包含<em>单词向量</em>,而不是doc向量,这些单词向量只在某些<code>Doc2Vec</code>模式下才有意义。)</p>
<p>所以在培训之后,您可以通过如下操作获得示例数据的doc向量:</p>
<pre><code>model.docvecs['UID_1']
model.docvecs['action']
</code></pre>
<p>记住,当你训练更多的向量时,你可能需要更多的数据。从粗略的意义上讲,从数据中得出的任何有价值的概括都来自于将原始数据压缩成更小的表示形式。如果在相同的数据量上训练一个更大的模型(更多的单词向量文档标记向量作为内部可调参数),结果可能会更“稀释”甚至“过度拟合”。(也就是说,它可能反映了训练数据的记忆特性,而不是对下游目的或新文本有用的概括见解)。在</p>