神经机器翻译：结合onehot和密集嵌入？

2024-06-13 14:35:23 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在读一篇关于Google's transformer architecture神经机器翻译（'Attention is all you need'）的论文。在基于RNN的seq2seq设置中，源语句和输出语句通常是一个热编码的。在transformer的文章中，他们说他们用正弦/余弦函数对句子中一个标记的位置进行了额外的编码，这将导致一些不再是热编码的东西

也许这是个幼稚的问题，但即使是combine one-hot encoded word with a positional dense encoding也是合理的吗

有没有人期望网络能从这样的表现中学到什么？单词信息几乎都是零，只有一个字段有一堆表示位置的密集值？我倾向于说网络不会学到任何东西，或者至少令牌信息几乎不会得到任何权重，因为它是一个相当大的向量中的单个1域

Tags：网络 you 信息编码 is google 语句 all

0条回答

目前没有回答

神经机器翻译：结合onehot和密集嵌入？

相关问题更多 >

编程相关推荐

热门问题

热门文章

神经机器翻译：结合onehot和密集嵌入？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >