非英语文本中基于预训练模型的BERT语句嵌入

from sentence_transformers import SentenceTransformer, util import torch embedder = SentenceTransformer('distilbert-base-nli-stsb-mean-tokens') sentences = ['This framework generates embeddings for each input sentence', 'Sentences are passed as a list of string.', 'The quick brown fox jumps over the lazy dog.'] sentence_embeddings = model.encode(sentences)

1条回答

网友

1楼 · 发布于 2024-05-17 03:44:15

在瑞典语中使用经过训练的BERT确实要好得多。原因是，对于在英语语料库上训练的伯特来说，瑞典词都是离群词。因此，即使一个英国的BERT可以在瑞典语料库上做一些工作，如果可以的话，瑞典的BERT也是一个明显的选择

然而，如果您面临混合语言语料库的可能性，那么您就不能应用这种方法，因为您不仅需要为所涉及的每种语言指定一个单独的BERT，还需要检测所使用的语言，包括句内级别。在这种情况下，一个可能的解决方案是使用拥抱人脸网络或任何公共翻译API将所有文本从“自动检测语言”翻译成英语。例如谷歌、Deepl、Yandex或百度

另外，如果您碰巧尝试了两种BERT'S，请在这里的评论中分享质量差异

相关问题更多 >

编程相关推荐

热门问题

热门文章