python3doc2vec：按向量/ID获取文档

1条回答

网友

1楼 · 发布于 2024-09-26 22:54:28

如果您想查找实际的培训文本，对于作为培训一部分的给定text+标记，您应该将该映射保留在Doc2Vec模型之外(该模型不存储培训文本——只在培训期间反复查看。）

如果您想从Doc2Vec文档向量生成文本，那么这不是现有的功能，我也不知道有任何已发表的作品描述了这样做的可靠技术

gensim Doc2Vec正在进行一项推测性/实验性的工作，它将通过模型的神经网络向前传播doc向量，并报告最高度预测的目标词(这与infer_vector()的工作方式有些相反。）

这可能会给人一种概括的感觉。有关更多详细信息，请参阅本公开发行的&；所附的PR正在进行中：

https://github.com/RaRe-Technologies/gensim/issues/2459

这是否真的有用或可能成为gensim的一部分还不清楚

但是，请注意，这样一组单词不符合语法(这将是最具预测性的单词排行榜。也许其他子系统可以尝试以自然、语法的方式将这些单词串在一起。）

此外，一个概念是否有许多潜在的关联词，或者只有一个，这些微妙之处可能会极大地影响这样一个过程的“前N名”结果。设计一个可能的例子：有很多词来描述“寒冷”的环境。因此，关于“冷”的文本的doc向量可能在第11-20位有很多“冷”的近义词，因此至少有一个“冷”字的“总可能性”非常高，可能高于其他任何一个字。但是，仅仅看一下最受预测的前10个单词，可能会列出其他可能性没有那么大差别的“更纯粹”的单词，而忽略了（更重要的是，总体而言）“冷漠”的含义。因此，这种实验性的伪摘要方法可能受益于第二次传递，以某种方式将相关词组“合并”为最具代表性的词，直到文档向量预测词的总比例（而不是固定的top-N）得到传达(这个过程可能有点像找到一组M个单词，它们与整个预测单词集的“单词移动距离”被最小化——尽管这可能是一个非常昂贵的搜索。）

相关问题更多 >

编程相关推荐

热门问题

热门文章