有人能用完全不同的词汇解释一下使用经过训练的数据模型的直觉吗?

2024-05-17 03:18:46 发布

您现在位置:Python中文网/ 问答频道 /正文

当我试图将经过训练的模型应用于新数据集时,我发生了一些事情,当我标记新数据集时,一些单词显然被分配了一个不同的数值,而不是原始数据集中用于训练/验证的同一个单词。当数据集具有不同的词汇表,因此相同单词的数值不同时,模型如何进行预测?我猜这与模型学习嵌入层有关,对吗?这是否适用于sklearn中的非深度学习模型(Forests、SVM、NB等)?我只是想理解直觉为什么会起作用。谢谢

这是我通常用来将单词转换成数字的代码,以防万一:

token_ids = [[[vocab[word] for word in message] for message in document] for document in balanced_10k_documents]

Tags: 数据词汇表in标记模型messagefor原始数据