张量板嵌入可视化:什么是余弦距离?

2024-10-02 02:34:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我是数字人文学科的博士生。我对编程语言很陌生。你知道吗

从上个月开始我就有一个让我抓狂的问题。我试图在Tensorboard的嵌入式投影仪上可视化doc2vec模型(python,gensim库),但是我没有得到我所期望的。你知道吗

我肯定我在这里遗漏了一些基本的东西…不过,总结一下

  1. 如果我在张力板中选取一个随机向量,最相似的向量与我的模型完全不同。是因为维数减少还是什么?你知道吗
  2. 很多向量的余弦相似度比一高,我真的不明白我做错了什么。有人告诉我,也许我的向量没有标准化,但我认为Gensim已经做到了,不是吗?你知道吗

下面是我用来生成嵌入的代码。我也试着改变一点代码,直接从“KeyedVectors”中提取向量,但没有改变。你知道吗

from gensim.scripts import word2vec2tensor from gensim.models.doc2vec import Doc2Vec doc2vec_model = Doc2Vec.load("doc2vec4.d2v") doc2vec_model.save_word2vec_format('doc_tensor.w2v', doctag_vec=True, word_vec=False) %run "C:..word2vec2tensor.py" -i doc_tensor.w2v -o my_plot

我做错什么了?提前谢谢。你知道吗


Tags: 代码from模型importdocmodel数字向量
1条回答
网友
1楼 · 发布于 2024-10-02 02:34:00

余弦距离由1-cosine_similarity定义,因为cosine_similarity位于区间[-1, 1],所以cosine_distance位于[0, 2]。因此,有些距离大于1是正常的。这对于指向不同方向的向量是正确的。你知道吗

至于你的第一个问题,因为在你的链接中,主成分分析的解释方差是~8.5%,很可能降维改变了给定向量的邻域。您可能也想尝试减少模型中的维度。如果没有更多关于你的模型的信息,就很难更具体。你知道吗

相关问题 更多 >

    热门问题