当我试图将经过训练的模型应用于新数据集时,我发生了一些事情,当我标记新数据集时,一些单词显然被分配了一个不同的数值,而不是原始数据集中用于训练/验证的同一个单词。当数据集具有不同的词汇表,因此相同单词的数值不同时,模型如何进行预测?我猜这与模型学习嵌入层有关,对吗?这是否适用于sklearn中的非深度学习模型(Forests、SVM、NB等)?我只是想理解直觉为什么会起作用。谢谢
这是我通常用来将单词转换成数字的代码,以防万一:
token_ids = [[[vocab[word] for word in message] for message in document] for document in balanced_10k_documents]
目前没有回答
相关问题 更多 >
编程相关推荐