关键词间的余弦相似性

1条回答

网友

1楼 · 发布于 2024-05-19 20:53:52

SciKit学习库有一个相当简单的余弦度量。虽然我同意这个图书馆很大，而且看起来势不可挡，但你可以从小部分着手。在

我不太清楚你想用你建议的方式来比较事物来达到什么目的，但是如果你想在语料库中用关键字来表示文档之间的余弦相似性，你首先需要（正如Marmikshah所指出的那样）用关键字项（维度）来表示文档。在

例如

import logging
import numpy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

logging.basicConfig(level=logging.DEBUG,
                    filename='test.log', filemode='w')

dataset = ['the cat sat on the mat',
          'the rat sat in the hat',
          'the hat sat on the bat']


vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(dataset)

# ...you say you are already at this point here...

sims = cosine_similarity(X_tfidf, X_tfidf)
rank = list(reversed(numpy.argsort(sims[0])))

logging.debug("\nTdidf: \n%s" % X_tfidf.toarray())
logging.debug("\nSims: \n%s", sims)
logging.debug("\nRank: \n%s", rank)

通常情况下，在搜索中，你首先要预先对语料库进行向量化，然后对搜索查询进行向量化，得到其表示形式的sim：

^{pr2}$

然后对排名靠前的文档进行排序和挑选/展示。在

我修改了这个X，Y来交叉引用语料库中的文档，而不是上面的X，X

相关问题更多 >

编程相关推荐

热门问题

热门文章

关键词间的余弦相似性

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >