TFGPT2LMHeadModel未知位置

2024-09-27 07:34:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在玩弄tensorflow(CPU)和一些语言模型,到目前为止,一切都很好。
但是在看到我的旧CPU在所有的模型训练中慢慢地被淘汰之后,我决定是时候让我的RTX2080发挥一些作用了。我一直在遵循来自washinton university的指南:。我很快就让tensorflow gpu运行起来,在一些轻型预测之类的东西上运行它

但当我开始运行GPT2语言模型时,我遇到了一些小问题。我首先标记数据:

from tokenizers.models import BPE
from tokenizers import Tokenizer
from tokenizers.decoders import ByteLevel as ByteLevelDecoder
from tokenizers.normalizers import NFKC, Sequence
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.trainers import BpeTrainer

class BPE_token(object):
def __init__(self):
    self.tokenizer = Tokenizer(BPE())
    self.tokenizer.normalizer = Sequence([
        NFKC()
    ])
    self.tokenizer.pre_tokenizer = ByteLevel()
    self.tokenizer.decoder = ByteLevelDecoder()

def bpe_train(self, paths):
    trainer = BpeTrainer(vocab_size=50000, show_progress=True, inital_alphabet=ByteLevel.alphabet(),         special_tokens=[
        "<s>",
        "<pad>",
        "</s>",
        "<unk>",
        "<mask>"
    ])
    self.tokenizer.train(trainer, paths)

def save_tokenizer(self, location, prefix=None):
    if not os.path.exists(location):
        os.makedirs(location)
    self.tokenizer.model.save(location, prefix)

# ////////// TOKENIZE DATA ////////////
from pathlib import Pa th
import os# the folder 'text' contains all the files
paths = [str(x) for x in Path("./da_corpus/").glob("**/*.txt")]
tokenizer = BPE_token()# train the tokenizer model
tokenizer.bpe_train(paths)# saving the tokenized data in our specified folder
save_path = 'tokenized_data'
tokenizer.save_tokenizer(save_path)

上面的代码可以完美地工作并标记数据——就像tensorflow(CPU)一样。在将数据标记化后,我开始训练我的模型-但在它开始之前,我得到以下结果:

from transformers import GPT2Config, TFGPT2LMHeadModel, GPT2Tokenizer # loading tokenizer from the   saved model path
ImportError: cannot import name 'TFGPT2LMHeadModel' from 'transformers' (unknown location)

Transformers软件包似乎已正确安装在站点软件包库中,我似乎能够使用其他变压器-但不能TFGPT2LMHeadModel 我读过谷歌上的所有内容,也尝试过tensorflow gpu、transformers、Tokenizer和许多其他软件包的不同版本,可惜没有任何帮助

套餐:

  • Python,3.7.1
  • Tensorflow 2.1.0
  • Tensorflow gpu 2.1.0
  • Tensorflow基础2.1.0
  • 张量流估计器2.1.0
  • 变压器4.2.2
  • 标记化器0.9.4
  • cudnn 7.6.5
  • cudatoolkit 10.1.243

Tags: thefrom标记模型importselfsavetensorflow

热门问题