我如何创造和适应词汇.bpe文件(GPT和GPT2 OpenAI模型)与我自己的语料库文本?

2024-09-27 21:27:23 发布

您现在位置:Python中文网/ 问答频道 /正文

这个问题是为那些熟悉GPT或GPT2OpenAI模型的人准备的。尤其是编码任务(字节对编码)。这是我的问题:

我想知道我怎样才能创造我自己的词汇.bpe文件。在

我有一个西班牙语语料库文本,我想使用适合我自己的bpe编码器。我成功地创造了编码器.json使用python-bpe库,但我不知道如何获得词汇.bpe文件。 我已经检查了gpt-2/src/encoder.py中的代码,但是,我没有找到任何提示。有什么帮助或想法吗?在

提前谢谢你。在


Tags: 文件模型文本srcjson编码encoder字节
2条回答

我没有使用过GPT2,但是bpemb是一个很好的开始子词嵌入的地方。根据自述

BPEmb is a collection of pre-trained subword embeddings in 275 languages, based on Byte-Pair Encoding (BPE) and trained on Wikipedia. Its intended use is as input for neural models in natural language processing.

我在我的一个项目中使用了预训练的嵌入和sentencepiece,结果证明它非常有用。在

签出here,你可以很容易地创建相同的词汇.bpe使用以下命令:

python learn_bpe -o ./vocab.bpe -i dataset.txt  symbols 50000

相关问题 更多 >

    热门问题