merge.txt文件中HuggingFace ByTelevelbepTokenizer编码问题

2024-09-29 19:19:47 发布

您现在位置：Python中文网/ 问答频道 /正文

7080

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在使用HuggingFace ByTelevelbepTokenizer为马拉地语生成词汇表 ("आपण हवे ते लेख शोधू शकता")

当我训练马拉地语数据时，我会在merges.text文件中得到这样的输出，该文件不是词汇表或训练数据集的一部分

日元

ĠĠ

下面是用于培训的代码

from tokenizers import ByteLevelBPETokenizer

filename= "marathi.txt"

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()


# Customize training
tokenizer.train(files=filename, vocab_size=20_000, min_frequency=3, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

我还尝试通过将每个值设置为['nfc'、'nfd'、'nfkc'、'nfkd']来设置TelevelbeTokenizer的unicode_规范化器参数

如何在词汇表中找到正确的单词，如何处理

Tags：文件数据词汇表代码 text from filename tokenizer

0条回答

目前没有回答

merge.txt文件中HuggingFace ByTelevelbepTokenizer编码问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

merge.txt文件中HuggingFace ByTelevelbepTokenizer编码问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >