我如何创造和适应词汇.bpe文件（GPT和GPT2 OpenAI模型）与我自己的语料库文本？

2条回答

网友

1楼 · 编辑于 2024-09-27 21:27:23

我没有使用过GPT2，但是bpemb是一个很好的开始子词嵌入的地方。根据自述

BPEmb is a collection of pre-trained subword embeddings in 275 languages, based on Byte-Pair Encoding (BPE) and trained on Wikipedia. Its intended use is as input for neural models in natural language processing.

我在我的一个项目中使用了预训练的嵌入和sentencepiece，结果证明它非常有用。在

网友

2楼 · 编辑于 2024-09-27 21:27:23

签出here，你可以很容易地创建相同的词汇.bpe使用以下命令：

python learn_bpe -o ./vocab.bpe -i dataset.txt  symbols 50000

编程相关推荐

JavaSpringBootHibernate5忽略@Table和@Column
java readLine是如何工作的？
java除了Oracle的JVM（windows）之外，还有什么BSD许可的替代方案吗？
javascript处理程序执行导致异常：所需的MultipartFile参数“file”不存在
java如何检查url是否与标识符匹配？
java在对象创建之后实现一个接口
java安卓：如何将github库放入项目中
java如何制作自定义文本组件？
如何在java中更新属性文件
java Hibernate持久映射

相关问题更多 >

编程相关推荐

热门问题

热门文章

我如何创造和适应词汇.bpe文件（GPT和GPT2 OpenAI模型）与我自己的语料库文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >