我在NLTK
(viaPython3
)中看到两种不同的方法来访问卡内基梅隆发音词典语料库阅读器(cmudict
)的信息,我很难理解它们之间的区别:
from nltk.corpus import cmudict
pro1 = cmudict.entries()
from nltk.corpus import cmudict
pro2 = cmudict.dict()
根据docs(here)cmudict.entries()
返回“cmudict lexicon作为包含(单词,转录)元组的条目列表”,而cmudict.dict()
返回“cmudict lexicon作为字典,其键是小写单词,其值是发音列表”
但是,如果cmudict.entries()
和cmudict.dict()
之间的差异仅是返回的数据类型的差异(似乎是文档所指示的),为什么对每个数据调用len()
会产生两个不同的数字(下面的示例)
from nltk.corpus import cmudict
pro1 = cmudict.entries()
pro2 = cmudict.dict()
output = ' '.join(["entries length is", str(len(pro1)), "dict length is", str(len(pro2))])
print(output)
返回:entries length is 133737 dict length is 123455
我对这两种方法的区别有什么误解吗?cmudict.enries()
是否更完整
目前没有回答
相关问题 更多 >
编程相关推荐