我正在读this Kaggle notebook
在类DisasterDetector中,在build_model()中,clf_output = sequence_output[:, 0, :]
. 然后应用sigmoid激活以生成模型输出
BertLayer从tfhub上获得的位置将序列_输出的形状描述为[batch_size, max_seq_length, 768]
。为什么我们只选择第一个索引而不是最大长度维度(索引为0)?如果这只对应于输出序列中的第一个标记,而不对应于其他标记,为什么要在二进制分类任务中使用它
Tags:
输出序列的第一个标记来自输入序列的第一个标记,即。[CLS]。 [CLS]被视为整个输入序列的代表。 你可以阅读原稿以便更好地理解它
相关问题 更多 >
编程相关推荐