我正在读一篇关于Google's transformer architecture
神经机器翻译('Attention is all you need'
)的论文。
在基于RNN的seq2seq设置中,源语句和输出语句通常是一个热编码的。在transformer的文章中,他们说他们用正弦/余弦函数对句子中一个标记的位置进行了额外的编码,这将导致一些不再是热编码的东西
也许这是个幼稚的问题,但即使是combine one-hot encoded word with a positional dense encoding
也是合理的吗
有没有人期望网络能从这样的表现中学到什么?单词信息几乎都是零,只有一个字段有一堆表示位置的密集值?我倾向于说网络不会学到任何东西,或者至少令牌信息几乎不会得到任何权重,因为它是一个相当大的向量中的单个1域
目前没有回答
相关问题 更多 >
编程相关推荐