如何在gensim的word2vec模型中嵌入用户名

volunteer_names, essay ["emi", "jenne", "john"], [["lets", "protect", "nature"], ["what", "is", "nature"], ["nature", "humans", "earth"]] ["jenne", "li"], [["lets", "manage", "waste"]] ["emi", "li", "jim"], [["python", "is", "cool"]] ... ... ...

1条回答

网友

1楼 · 发布于 2024-06-01 22:16:37

Word2vec从周围的单词中推断出单词的表示形式：相似的单词经常出现在相似的公司，最后以相似的向量结束。通常，考虑5个单词的窗口。因此，如果你想破解Word2vec，你需要确保学生的名字出现得足够频繁（可能出现在句子的开头和结尾或类似的地方）

或者，您可以查看Doc2vec。在培训期间，每个文档都会获得一个ID并学习该ID的嵌入，它们位于查找表中，就像它们是单词嵌入一样。如果您使用学生姓名作为文档ID，您将获得学生嵌入。如果你有一个学生的多篇文章，我想你需要对Gensim进行一点修改，使每篇文章都没有唯一的ID

相关问题更多 >

编程相关推荐

热门问题

热门文章