cmudict.dict()与cmudict.entries()(Python3,NLTK)

2024-09-27 21:26:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我在NLTK(viaPython3)中看到两种不同的方法来访问卡内基梅隆发音词典语料库阅读器(cmudict)的信息,我很难理解它们之间的区别:

版本1

from nltk.corpus import cmudict
pro1 = cmudict.entries()

版本2

from nltk.corpus import cmudict
pro2 = cmudict.dict()

根据docs(herecmudict.entries()返回“cmudict lexicon作为包含(单词,转录)元组的条目列表”,而cmudict.dict()返回“cmudict lexicon作为字典,其键是小写单词,其值是发音列表”

但是,如果cmudict.entries()cmudict.dict()之间的差异仅是返回的数据类型的差异(似乎是文档所指示的),为什么对每个数据调用len()会产生两个不同的数字(下面的示例)

from nltk.corpus import cmudict

pro1 = cmudict.entries()
pro2 = cmudict.dict()

output = ' '.join(["entries length is", str(len(pro1)), "dict length is", str(len(pro2))])
print(output)

返回:entries length is 133737 dict length is 123455

我对这两种方法的区别有什么误解吗?cmudict.enries()是否更完整


Tags: 方法fromimportleniscorpuslengthdict

热门问题