有没有一种方法可以使用sklearn-TFIDF模型解决单词类比？

vec1 = tfidf_docterm_matrix.transpose()[tfidf_featuriser.vocabulary_['man'], :] vec2 = tfidf_docterm_matrix.transpose()[tfidf_featuriser.vocabulary_['woman'], :] vec3 = tfidf_docterm_matrix.transpose()[tfidf_featuriser.vocabulary_['king'], :] vec4 = vec2 + vec3 - vec1

1条回答

网友

1楼 · 发布于 2024-09-28 21:25:00

tf idf不[试图]捕获单个单词的语义信息-它是一个纯粹基于频率的模型。因此，你不应该期望看到简洁的词语类比出现（想想看，为什么“男人”、“女人”、“国王”和“女王”的相对频率应该如此简洁地关联起来）

在Word2Vec模型中，queen~=king+女性-男性词语类比的出现部分是因为我们表示为n维向量（希望）编码每个词语的语义

另一方面，在tf idf矩阵中，我们的词向量的每个元素仅代表其在特定文档中的频率函数，因此您设置的约束条件不仅是这些词的相对频率强相关，而且在单个文档的级别上发生，这对于一个只计算词频的模型来说是一个很大的要求

如果你想理解为什么单词类比出现在Word2Vec这样的单词嵌入模型中，我建议你看看这个paper和相关的talk

相关问题更多 >

编程相关推荐

热门问题

热门文章