变压器的输入和输出是什么?

2024-10-02 02:26:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Transformerhere的google实现有疑问。你知道吗

  • train_step(input, tar)函数中,inp维度是256*40张量,转换器返回256*39*8089张量。inp中的每一行都是一个句子吗?我希望Transformer能够获取一批句子(一批大小为2D矩阵的句子,其中每一行都是一个单词),并立即计算注意力权重和输出,然后将它们传递给解码器(参见here)。但是,我看不到代码中实现了这一点。

  • train_step(input, tar)函数中,“预测”是一个256*39*8089张量。是不是[批量大小,句子中的最大字数,目标词条大小]?loss\u函数如何计算损失,而此格式与“`tar\u real``不同,后者是[256*39]?

  • def evaluate(inp_sentence):为什么在每次迭代中它都向转换器发送整个编码器输入?我期望的是编码器计算一次注意权重和输出,然后在for循环中发送到目前为止的注意和预测的输出。

谢谢


Tags: 函数inputstepgoogletrain矩阵tar编码器

热门问题