计算文档集和关键词集之间的余弦相似性（例如，“创新”“快速”）

2024-04-27 19:50:16 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一套描述企业文化不同方面的文件。标记化示例如下：

sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']

我已经将手套和Gensim w2v应用于上述文件。我想识别与一组单词具有高余弦相似性分数的文档，例如 Innovation =['innovate','innovative','fast']

如何使用Gensim计算每个文档（例如sent1、sent2）和Innovation之间的余弦相似性

理想输出：

       innovation
sent1  0.98
sent2  0.45
sent3  -0.2

Tags：文件文档标记示例相似性文化企业 fast

1条回答

网友

1楼 · 发布于 2024-04-27 19:50:16

对于“文档集之间的余弦相似性”，有不同的方法。您可以阅读一些解决方案here

但是如果您想计算两个单词之间的CS，您可以这样做（werea和b是您的向量）：

from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))