空间的附加查找表和数据资源
spacy-lookups-data的Python项目详细描述
空间查找数据
此存储库包含要与一起使用的其他数据文件
spaCyv2.2+。当它安装在与
spaCy,这个包将每种语言的资源作为一个条目提供
点,在设置Vocab
和Lookups
时检查该点。在
请随时提交请求以更新数据。对于与 数据、查找和集成,请使用 spaCy issue tracker。在
常见问题解答
为什么会有这种情况?
这个包的主要目的是进行默认的spaCy安装
更小,不强制每个用户下载all
默认语言。现在,通过预先训练的提供查找数据
模型(将词汇表和查找表序列化)或
显式安装此包或spacy[lookups]
。在
我什么时候安装这个?
如果你想对语言使用词法化,你应该安装这个软件包
还没有可用的pretrained model
下载,不要依赖第三方库进行柠檬化
例如,土耳其语,瑞典语或克罗地亚语
(see data files)。您还应该安装它,如果
您正在创建一个blank模型,并希望它包含柠檬化数据。
一旦您保存了模型(例如,通过nlp.disk
),它将包括
查找表作为其Vocab
的一部分。在
这个包裹只用于柠檬化吗?
现在,是的。但是,我们正在考虑包括其他查找列表和 表,例如大型标记器异常文件。在
运行测试
这个软件包现在还包括所有 data-specific tests。测试套件依赖于 斯帕西。在
pip install -r requirements.txt python -m pytest spacy_lookups_data
如果您已经在spaCy环境中安装了包,那么还可以运行 像这样的测试:
^{pr2}$- 项目
标签: