doc2vec如何为senten创建向量

2条回答

网友

1楼 · 编辑于 2024-10-02 14:30:57

Doc2Vec概念：

无论文档的长度如何，文档的目标都是创建一个数字表示。但与单词不同的是，文档不是以单词这样的逻辑结构出现的，因此必须找到另一种方法。在

Mikolov和Le使用的概念很简单，但很聪明：他们使用了word2vec模型，并添加了另一个向量paragraph_ID，这是文档唯一的。现在，我们不再使用单词来预测下一个单词，而是添加了另一个特征向量。在

因此，在训练单词向量W时，文档向量{}也会被训练，并且在训练的最后，它保存文档的数字表示。在

你可以阅读更多关于它的here

网友

2楼 · 编辑于 2024-10-02 14:30:57

如果您已经用训练数据创建了gensimDoc2Vec模型，那么它将只知道训练数据中存在的文档标记的训练向量。在

然而，还有一个方法infer_vector()，它可以为新文本推断出兼容的文档向量。新文本应该与训练数据一样被标记化，并作为字符串标记的列表传递给infer_vector()。在