计算文档集和关键词集之间的余弦相似性(例如,“创新”“快速”)

2024-04-27 19:50:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一套描述企业文化不同方面的文件。标记化示例如下:

sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将手套和Gensim w2v应用于上述文件。我想识别与一组单词具有高余弦相似性分数的文档,例如 Innovation =['innovate','innovative','fast']

如何使用Gensim计算每个文档(例如sent1、sent2)和Innovation之间的余弦相似性

理想输出:

       innovation
sent1  0.98
sent2  0.45
sent3  -0.2

Tags: 文件文档标记示例相似性文化企业fast
1条回答
网友
1楼 · 发布于 2024-04-27 19:50:16

对于“文档集之间的余弦相似性”,有不同的方法。您可以阅读一些解决方案here

但是如果您想计算两个单词之间的CS,您可以这样做(wereab是您的向量):

from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))

相关问题 更多 >