python3doc2vec:按向量/ID获取文档

2024-09-26 22:54:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经用大约20000个文件构建了我的Doc2Vec模型。我正在寻找一种方法来查找给定向量/ID的字符串表示形式,它可能类似于Word2Vec的index2entity。我可以用模型['n']得到向量本身,但现在我想知道是否有办法得到它的某种字符串表示形式


Tags: 文件方法字符串模型idword2vec向量形式
1条回答
网友
1楼 · 发布于 2024-09-26 22:54:28

如果您想查找实际的培训文本,对于作为培训一部分的给定text+标记,您应该将该映射保留在Doc2Vec模型之外(该模型不存储培训文本——只在培训期间反复查看。)

如果您想从Doc2Vec文档向量生成文本,那么这不是现有的功能,我也不知道有任何已发表的作品描述了这样做的可靠技术

gensim Doc2Vec正在进行一项推测性/实验性的工作,它将通过模型的神经网络向前传播doc向量,并报告最高度预测的目标词(这与infer_vector()的工作方式有些相反。)

这可能会给人一种概括的感觉。有关更多详细信息,请参阅本公开发行的&;所附的PR正在进行中:

https://github.com/RaRe-Technologies/gensim/issues/2459

这是否真的有用或可能成为gensim的一部分还不清楚

但是,请注意,这样一组单词不符合语法(这将是最具预测性的单词排行榜。也许其他子系统可以尝试以自然、语法的方式将这些单词串在一起。)

此外,一个概念是否有许多潜在的关联词,或者只有一个,这些微妙之处可能会极大地影响这样一个过程的“前N名”结果。设计一个可能的例子:有很多词来描述“寒冷”的环境。因此,关于“冷”的文本的doc向量可能在第11-20位有很多“冷”的近义词,因此至少有一个“冷”字的“总可能性”非常高,可能高于其他任何一个字。但是,仅仅看一下最受预测的前10个单词,可能会列出其他可能性没有那么大差别的“更纯粹”的单词,而忽略了(更重要的是,总体而言)“冷漠”的含义。因此,这种实验性的伪摘要方法可能受益于第二次传递,以某种方式将相关词组“合并”为最具代表性的词,直到文档向量预测词的总比例(而不是固定的top-N)得到传达(这个过程可能有点像找到一组M个单词,它们与整个预测单词集的“单词移动距离”被最小化——尽管这可能是一个非常昂贵的搜索。)

相关问题 更多 >

    热门问题