2024-09-27 21:27:23 发布
网友
这个问题是为那些熟悉GPT或GPT2OpenAI模型的人准备的。尤其是编码任务(字节对编码)。这是我的问题:
我想知道我怎样才能创造我自己的词汇.bpe文件。在
我有一个西班牙语语料库文本,我想使用适合我自己的bpe编码器。我成功地创造了编码器.json使用python-bpe库,但我不知道如何获得词汇.bpe文件。 我已经检查了gpt-2/src/encoder.py中的代码,但是,我没有找到任何提示。有什么帮助或想法吗?在
提前谢谢你。在
我没有使用过GPT2,但是bpemb是一个很好的开始子词嵌入的地方。根据自述
BPEmb is a collection of pre-trained subword embeddings in 275 languages, based on Byte-Pair Encoding (BPE) and trained on Wikipedia. Its intended use is as input for neural models in natural language processing.
我在我的一个项目中使用了预训练的嵌入和sentencepiece,结果证明它非常有用。在
签出here,你可以很容易地创建相同的词汇.bpe使用以下命令:
python learn_bpe -o ./vocab.bpe -i dataset.txt symbols 50000
我没有使用过GPT2,但是bpemb是一个很好的开始子词嵌入的地方。根据自述
我在我的一个项目中使用了预训练的嵌入和sentencepiece,结果证明它非常有用。在
签出here,你可以很容易地创建相同的词汇.bpe使用以下命令:
相关问题 更多 >
编程相关推荐