word2vec向量[gensim库]的“大小”是什么意思?

2024-09-27 09:31:14 发布

您现在位置:Python中文网/ 问答频道 /正文

假设字典里有1000个单词(A1,A2,…,A1000)。据我所知,在单词嵌入或word2vec方法中,它的目的是用一个向量来表示字典中的每个单词,其中每个元素表示该单词与字典中剩余单词的相似性。说每个向量应该有999个维度,或者每个word2vec向量的大小应该是999,这是正确的吗?在

但是使用gensimpython,我们可以修改Word2vec的“size”参数的值,在本例中假设size=100。那么“size=100”是什么意思呢?如果我们提取A1的输出向量,表示为(x1,x2,…,x100),在这种情况下x1,x2,…,x100代表什么?在


Tags: 方法目的a2元素size字典a1word2vec
1条回答
网友
1楼 · 发布于 2024-09-27 09:31:14

事实上,“[word2vec]的目的是通过一个向量来表示字典中的每个单词,其中每个元素表示该单词与字典中剩余单词的相似性”。在

相反,给定一定的目标维数,比如说100,Word2Vec算法逐渐训练100维的词向量,使其在训练任务中越来越出色,即预测附近的单词。在

这种反复的过程往往会迫使相关的单词彼此“靠近”,与它们的相似度大致成比例——甚至在这个100维空间中的各种“方向”往往与人类可感知的语义范畴相匹配。因此,著名的“wv(king)-wv(man)+wv(woman)~=wv(queen)”示例通常有效,因为“malness/femaleness”和“royalty”是空间中模糊一致的区域/方向。在

单独的维度,没有任何意义。训练过程包括随机性,随着时间的推移,只会做“任何有效的事”。有意义的方向并非与尺寸轴完全对齐,而是与所有尺寸成角度。(也就是说,你不会发现v[77]是一个类似性别的维度。更确切地说,如果你选取了几十个类似男性和女性的词对,并对它们的所有差异进行平均,你可能会发现一些100维的向量维度,这暗示了性别的方向。)

你可以选择任何你想要的“尺寸”,但是当你有足够的训练数据时,100-400是常见的值。在

相关问题 更多 >

    热门问题