处理带批注文本的exportxmlv2格式

exmldoc的Python项目详细描述


https://travis-ci.org/yv/exmldoc.svg?branch=master

exmldoc是一个用于加载由pytree或exportxmlv2 java库生成的.exml.xml文件的库 以及各种各样的工具。exml文件格式是德国tüba-d/z treebank和 提供了以(主要是)人类可读格式存储多层语言注释的可能性。

只要您使用的是小文档,用法就相对简单:使用

::

导入ExmlDoc 从exmldoc.tree导入树

doc=exmldoc.load('file.exml.xml')

然后,您可以(例如)使用以下命令枚举所有句子:

::
对于已发送的文档,按类(树)获取对象:
打印文档字[sent.span[0]:sent.span[1]

或使用

::
对于已发送的文档,按类(树)获取对象:
对于doc.w_objs[sent.span[0]中的令牌:sent.span[1]
打印token.word、token.cat、token.引理

您可以更改文档,然后用

::
doc.save('file_processed.exml.xml')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java代理模式与重写   java如何对运行在executor服务内部的代码段进行单元测试,而不是等待线程。睡眠(时间)   java hadoop HDFS文件分发   无法在自定义适配器中解析java findViewById()   安卓如何在java中正确修剪字符串并将其拆分为3个单独的文本视图   大学Java练习有问题(字符串)   java是安卓 tabhost的活动生命周期   javascript当前请求不是多部分请求:Spring引导   spring中无映射实体的java连接   图像处理如何在Java中实现Hough圆   java如何在JVM启动选项中使用环境变量而不进行shell扩展   来自R的RJDBC包出现java ORA01033错误   Netty和ByteBuf之间的java差异。copy()和ByteBuf。重复()   带ms access的java Jdbcodbc桥不懂希腊字符?   swing Java结果集提前关闭   JavaOSGi包启动问题   递归使用JavaNIO递归地移动非空目录。2文件访问者和文件。walkFileTree(…)   java JButton未出现在其设置位置