merge.txt文件中HuggingFace ByTelevelbepTokenizer编码问题

2024-09-29 19:19:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用HuggingFace ByTelevelbepTokenizer为马拉地语生成词汇表 ("आपण हवे ते लेख शोधू शकता")

当我训练马拉地语数据时,我会在merges.text文件中得到这样的输出,该文件不是词汇表或训练数据集的一部分

a

日元

ĠĠ

¾

下面是用于培训的代码

from tokenizers import ByteLevelBPETokenizer

filename= "marathi.txt"

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()


# Customize training
tokenizer.train(files=filename, vocab_size=20_000, min_frequency=3, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

我还尝试通过将每个值设置为['nfc'、'nfd'、'nfkc'、'nfkd']来设置TelevelbeTokenizer的unicode_规范化器参数

如何在词汇表中找到正确的单词,如何处理


Tags: 文件数据词汇表代码textfromfilenametokenizer

热门问题