使用变压器块keras的自我注意

class TokenAndPositionEmbedding(layers.Layer): def __init__(self, maxlen, vocab_size, emded_dim): super(TokenAndPositionEmbedding, self).__init__() self.token_emb = layers.Embedding(input_dim=vocab_size, output_dim=emded_dim) self.pos_emb = layers.Embedding(input_dim=maxlen, output_dim=emded_dim) def call(self, x): maxlen = tf.shape(x)[-1] positions = tf.range(start=0, limit=maxlen, delta=1) positions = self.pos_emb(positions) x = self.token_emb(x) return x + positions

1条回答

网友

1楼 · 发布于 2024-09-28 05:25:23

正如你所知道的，变压器是一种只基于大量Dense层的结构，具有剩余的概念；然而，这使得时间序列数据失去其时间依赖性。因此，对于变压器，您需要<强>定位位置< /强>，您可以将其视为该结构的附加信息，从而不会错过时间依赖性。如果您想通过使用keras更好地理解它，我将推荐Tensorflow编写的官方教程：https://www.tensorflow.org/tutorials/text/transformer 详细说明了你想知道的事情

相关问题更多 >

编程相关推荐

热门问题

热门文章