我正在写一个算法来检查一个字符串与另一个字符串的相等程度。我用的是Sklearn余弦相似性。在
我的代码是:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
example_1 = ("I am okey", "I am okeu")
example_2 = ("I am okey", "I am crazy")
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(example_1)
result_cos = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
print(result_cos[0][1])
运行此代码(例如_1)将打印0.336096927276。例如,运行它,它会打印出相同的分数。两个词的结果是一样的,因为只有一个词的结果是一样的。在
我想要的是得到更高的分数,例如_1,因为不同的单词“okey vs okeu”只有一个不同的字母。相比之下,例2中有两个完全不同的词“okey vs crazy”。在
我的代码怎么能考虑到在某些情况下不同的单词并不是完全不同的?在
对于短字符串,Levenshtein distance可能会产生比基于单词的余弦相似性更好的结果。下面的算法改编自Wikibooks。因为这是一个距离指标,得分越小越好。在
相关问题 更多 >
编程相关推荐