所以我试图在tensorflow数据集中编码一个字符串,以便使用它来训练一个预训练的RoBERTa模型。 training_数据集是一个tensorflow数据集,由pandas数据框组成,如下所示:
我使用此数据帧构建tf.data.Dataset,使用:
features = ['OptionA', 'OptionB', 'OptionC']
training_dataset = (
tf.data.Dataset.from_tensor_slices(
(
tf.cast(train_split[features].values, tf.string),
tf.cast(train_split['Answer'].values, tf.int32)
)
)
)
现在我想使用RobertaTokenizer对3列OptionA、OptionB和Option C进行编码,其定义如下:
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
我试过:
training_dataset = training_dataset.map(lambda x: tokenizer.encode(x))
但这给了我一个错误:“TypeError:()接受1个位置参数,但给出了2个”,我不确定如何处理这个问题,或者如何声明我只希望对前三列进行编码
任何帮助都将不胜感激
training_dataset
具有特性和输出,并且在map
函数中,只使用一个变量。尝试:相关问题 更多 >
编程相关推荐