斯帕西伯特词典

2024-05-12 21:32:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图访问spaCy BERT字典,但我从模型中收到奇怪的输出。例如,对于en_core_web_lg模型,我可以提取大约130万个这样的令牌

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]

当我对en_trf_bertbaseuncased_lg模型做同样的操作时,我只得到478个令牌

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

而根据BERT paper,应该有大约30k个令牌。有没有办法通过nlp.vocabcustom component attributes访问它们


Tags: incore模型webfornlpspacyload
1条回答
网友
1楼 · 发布于 2024-05-12 21:32:35

我对“en”等标准车型也有类似的问题。有趣的是,长度完全相同

import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478

事实证明,像“en”这样的模型不包含实向量(参见https://github.com/explosion/spaCy/issues/1520)。所以我猜伯特也是这样

相关问题 更多 >