我正在使用HuggingFace ByTelevelbepTokenizer为马拉地语生成词汇表 ("आपण हवे ते लेख शोधू शकता")
当我训练马拉地语数据时,我会在merges.text文件中得到这样的输出,该文件不是词汇表或训练数据集的一部分
a
日元
ĠĠ
¾
下面是用于培训的代码
from tokenizers import ByteLevelBPETokenizer
filename= "marathi.txt"
# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()
# Customize training
tokenizer.train(files=filename, vocab_size=20_000, min_frequency=3, special_tokens=[
"<s>",
"<pad>",
"</s>",
"<unk>",
"<mask>",
])
我还尝试通过将每个值设置为['nfc'、'nfd'、'nfkc'、'nfkd']来设置TelevelbeTokenizer的unicode_规范化器参数
如何在词汇表中找到正确的单词,如何处理
目前没有回答
相关问题 更多 >
编程相关推荐