我有一套描述企业文化不同方面的文件。标记化示例如下:
sent1=['innovative','culture','fast','moving','company']
sent2=['manager','micromanage','all','time']
sent3=['slow','response','customer']
我已经将手套和Gensim w2v应用于上述文件。我想识别与一组单词具有高余弦相似性分数的文档,例如
Innovation =['innovate','innovative','fast']
如何使用Gensim计算每个文档(例如sent1、sent2)和Innovation
之间的余弦相似性
理想输出:
innovation
sent1 0.98
sent2 0.45
sent3 -0.2
对于“文档集之间的余弦相似性”,有不同的方法。您可以阅读一些解决方案here
但是如果您想计算两个单词之间的CS,您可以这样做(were
a
和b
是您的向量):相关问题 更多 >
编程相关推荐