如何使用BERT层序列输出?

2024-09-28 21:29:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在读this Kaggle notebook

在类DisasterDetector中,在build_model()中,clf_output = sequence_output[:, 0, :] . 然后应用sigmoid激活以生成模型输出

BertLayer从tfhub上获得的位置将序列_输出的形状描述为[batch_size, max_seq_length, 768]。为什么我们只选择第一个索引而不是最大长度维度(索引为0)?如果这只对应于输出序列中的第一个标记,而不对应于其他标记,为什么要在二进制分类任务中使用它


Tags: 标记模型buildoutputmodel序列thissequence