Gensim:word2vec模型的质量似乎和训练中的迭代次数无关

1条回答

网友

1楼 · 发布于 2024-09-30 18:24:39

我怀疑你的语料库准备或训练有问题——通常word2vec可以很好地对这些相似性进行排名。在

您是单独提供术语（例如['breast, 'tumor']或{}作为非常小的句子），还是将术语加上定义/同义词作为一些较长的句子？在

后者会更好。在

如果是前者，那么1个单词的‘句子’一无所获：word2vec没有相邻的‘上下文’来学习任何东西，它们基本上被跳过了。在

仅仅两个词的句子可能会收到一些效果，但不一定提供有助于训练的不同语境来诱导有用的向量排列。在

另外，如果它是100万个句子，每个句子只有1-4个单词，那么这是一个小的数据集，单个单词可能出现的频率可能不够高，在稍微不同的上下文中，它们无法获得好的向量。您应该在model.wv.vocabdict中检查感兴趣的单词/标记，以获得一个count值，该值表示有足够的示例来诱导一个好的向量-理想情况下，每次出现10+次（而且越多越好）。在

所以：更多的数据，以及来自相关领域的更多不同的用法，总是一个好主意。在每个“句子”中有同义词的同义词词库（5到几十个）就足够了。在

你不显示你的代码或训练参数，但人们调整默认值，或遵循过时的在线示例，往往会破坏算法的有效性。在

例如，人们在自己的迭代循环中多次调用train()来管理学习率alpha的情况非常普遍，以至于有些迭代的alpha值为负，这意味着每一次反向传播都将上下文向量推向目标词的可预测性，与应该发生的事情完全相反。（最好在Word2Vec初始化时提供语料库iter，或调用train()一次。只有高级修补程序才需要多次调用train()。）

同样地，虽然天真的直觉往往是“保持更多的单词/信息必须更好”，因此人们将min_count降低到1或0，但这样的低频单词并不能仅出现1次（或几个）就得到好的向量，但由于它们数量非常多（总共），它们会干扰其他单词的有意义训练。（当低频词被丢弃时，幸存的、更频繁的单词得到更好的向量。）

祝你好运！在

相关问题更多 >

编程相关推荐

热门问题

热门文章