如何在gensim的word2vec模型中嵌入用户名

2024-06-01 22:16:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些志愿论文,格式如下:

volunteer_names, essay
["emi", "jenne", "john"], [["lets", "protect", "nature"], ["what", "is", "nature"], ["nature", "humans", "earth"]]
["jenne", "li"], [["lets", "manage", "waste"]]
["emi", "li", "jim"], [["python", "is", "cool"]]
...
...
...

我想根据他们的文章来识别类似的用户。我觉得word2vec更适合处理这样的问题。但是,由于我也想在模型中嵌入用户名,所以我不知道如何实现。我在互联网上找到的示例仅使用这些词(参见示例代码)

import gensim 
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)
在这种情况下,我想知道在Word2VEC中是否有特殊的方法,或者我可以简单地把用户名看作是输入到模型中的单词。请让我知道你对此的想法

如果需要,我很乐意提供更多细节


Tags: 模型示例is格式sentencesword2veclisentence
1条回答
网友
1楼 · 发布于 2024-06-01 22:16:37

Word2vec从周围的单词中推断出单词的表示形式:相似的单词经常出现在相似的公司,最后以相似的向量结束。通常,考虑5个单词的窗口。因此,如果你想破解Word2vec,你需要确保学生的名字出现得足够频繁(可能出现在句子的开头和结尾或类似的地方)

或者,您可以查看Doc2vec。在培训期间,每个文档都会获得一个ID并学习该ID的嵌入,它们位于查找表中,就像它们是单词嵌入一样。如果您使用学生姓名作为文档ID,您将获得学生嵌入。如果你有一个学生的多篇文章,我想你需要对Gensim进行一点修改,使每篇文章都没有唯一的ID

相关问题 更多 >