我试图访问spaCy BERT字典,但我从模型中收到奇怪的输出。例如,对于en_core_web_lg
模型,我可以提取大约130万个这样的令牌
nlp = spacy.load("en_core_web_lg")
tokens = [t for t in nlp.vocab]
当我对en_trf_bertbaseuncased_lg
模型做同样的操作时,我只得到478个令牌
nlp = spacy.load("en_trf_bertbaseuncased_lg")
tokens = [t for t in nlp.vocab]
而根据BERT paper,应该有大约30k个令牌。有没有办法通过nlp.vocab
或custom component attributes访问它们
我对“en”等标准车型也有类似的问题。有趣的是,长度完全相同
事实证明,像“en”这样的模型不包含实向量(参见https://github.com/explosion/spaCy/issues/1520)。所以我猜伯特也是这样
相关问题 更多 >
编程相关推荐