斯帕西伯特词典

2024-05-12 21:32:35 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图访问spaCy BERT字典，但我从模型中收到奇怪的输出。例如，对于en_core_web_lg模型，我可以提取大约130万个这样的令牌

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]

当我对en_trf_bertbaseuncased_lg模型做同样的操作时，我只得到478个令牌

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

而根据BERT paper，应该有大约30k个令牌。有没有办法通过nlp.vocab或custom component attributes访问它们

Tags： in core 模型 web for nlp spacy load

1条回答

网友

1楼 · 发布于 2024-05-12 21:32:35

我对“en”等标准车型也有类似的问题。有趣的是，长度完全相同

import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478

事实证明，像“en”这样的模型不包含实向量（参见https://github.com/explosion/spaCy/issues/1520）。所以我猜伯特也是这样