处理语言数据的工具。

corp的Python项目详细描述


Documentation statusPyPI packageCode style

安装

$ pip3 install corpy

设计仅支持最新版本的Python3(3.6+)。

科皮是什么?

corpus;)来说也是一个花哨的复数,也是一个方便但不是特别的集合 处理语言数据的相互集成的工具。它抽象化了 教学和/或日常实践中经常需要的功能 在Czech National Corpus工作,没有抱负 成为一个功能齐全或一致的NLP框架

文档的简短url是:https://corpy.rtfd.io/

这里有一个你可以用corpy做什么的想法:

注意

我应该选择udpipe还是morphodita?

UDPipeMorphoDiTa的继承者,在 原始代码库。它有更多的功能,但代价是 复杂:它同时做morphological tagging (including lemmatization) and syntactic parsing, 它处理许多不同的输入和输出格式。你也可以 下载pre-trained models用于 许多不同的语言。

相比之下,MorphoDiTa只有pre-trained models for Czech and English,并且只执行 morphological tagging (including lemmatization)。但是 输出更简单——它只是将文本拆分成标记,然后 注释它们,而udpipe可以(取决于模型)引入 为进行更明确的分析而需要的附加标记,添加多个单词 标记等。这是因为udpipe是根据语言类型定制的。 在UniversalDependencies项目中进行的分析,使用 CoNLL-U数据格式。

如果你只想标记文本而没有 可用的语言模型。

开发

依赖关系和构建文档

规范依赖性需求列在pyproject.toml和 冻结在poetry.lock中。但是,为了使用autodoc来构建api docs,必须安装包,corpy具有以下依赖项 资源过于密集,无法建立在readthedocs上。

解决方案是使用一个伪setup.py,它只列出依赖项 需要正确地构建文档,并通过列出 它们在autodoc_mock_imports中,docs/conf.py中。这个伪setup.py是 用于仅在readthedocs上安装corpy(通过适当的配置 .readthedocs.yml中的选项。对于MANIFEST.in文件也是如此, 它复制pyproject.toml中的tool.poetry.include项 readthedocs的唯一好处。

许可证

版权所有©2016–至今ÚČNK/david luke_

分布在GNU General Public License v3下面。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Android上已连接音频输入设备的java列表   java是创建类的新对象还是使用静态方法?   Java:Shift/Rotate对象数组   Java Casting ArrayIterator<Object>   在java中返回布尔值时出错   无法确定文本文件读入程序(java)中的各种元素   Java Swing JToolBar   JAVAlang.IllegalStateException执行Ghost4J(Linux 32对64位)   jvm如何增加ubuntu系统的java堆化?   java CORS策略“AccessControlAllowOrigin”(Anguar 8和Servlet)   使用dagger 2的java视图依赖项注入   单元测试中RxJava的java模拟活动生命周期   arraylist中的Java打印字符串   java返回值显示为0.0。为什么会这样?   java是clientserver应用程序所必需的MVC吗?   ByteToMessageDecoder类中的java内存泄漏   java将大量文档写入firestore   GWT项目中的java TomcatMaven插件。两者之间的区别是什么:org。科德豪斯。魔咒和组织。阿帕奇。公猫maven插件   java swing:向JTree项添加自定义图形按钮