神经机器翻译:结合onehot和密集嵌入?

2024-06-13 14:35:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在读一篇关于Google's transformer architecture神经机器翻译('Attention is all you need')的论文。 在基于RNN的seq2seq设置中,源语句和输出语句通常是一个热编码的。在transformer的文章中,他们说他们用正弦/余弦函数对句子中一个标记的位置进行了额外的编码,这将导致一些不再是热编码的东西

也许这是个幼稚的问题,但即使是combine one-hot encoded word with a positional dense encoding也是合理的吗

有没有人期望网络能从这样的表现中学到什么?单词信息几乎都是零,只有一个字段有一堆表示位置的密集值?我倾向于说网络不会学到任何东西,或者至少令牌信息几乎不会得到任何权重,因为它是一个相当大的向量中的单个1域


Tags: 网络you信息编码isgoogle语句all