如何将PVDM生成的矢量与doc2vec的PVDBOW方法相结合?

2024-05-12 09:38:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大约2万份60-150字的文件。在这20K个文档中,有400个文档已知类似的文档。这400个文档作为我的测试数据。你知道吗

我正在尝试使用gensim doc2vec查找这400个数据集的类似文档。“句子和文档的分布式表示”一文说,“PV-DM和PV-DBOW的组合通常效果更好(在IMDB中为7.42%),因此建议使用。”

所以我想把这两种方法的向量结合起来,找出所有列车文档的余弦相似度,并选择余弦距离最小的前5个。你知道吗

那么,将这两种方法的向量结合起来的有效方法是什么:加法、平均法还是其他方法???你知道吗

在组合这两个向量之后,我可以对每个向量进行归一化,然后找到余弦距离。你知道吗


Tags: 文件数据方法文档距离分布式dm向量
1条回答
网友
1楼 · 发布于 2024-05-12 09:38:08

这篇论文暗示他们已经把这两种方法的向量连接起来了。例如,给定一个300d PV-DBOW向量和一个300d PV-DM向量,在连接之后,您的文本将得到一个600d向量。你知道吗

然而,请注意,他们在IMDB上的底线结果很难被外人复制。我的测试只是有时显示了这些串联向量的一个小优势。(我特别想知道,通过单独的串联模型进行300d PV-DBOW+300d PV-DM是否比只训练一个真正的600d模型更好,时间相同,步骤/复杂度更少。)

您可以查看我在其docs/notebooks目录中随gensim附带的一个示例笔记本中重复原始“段落向量”纸张的一些实验的演示:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外,它还包括一些步骤和有用的方法,用于将模型对视为一个串联的整体。你知道吗

相关问题 更多 >