处理带批注文本的exportxmlv2格式
exmldoc的Python项目详细描述
exmldoc是一个用于加载由pytree或exportxmlv2 java库生成的.exml.xml文件的库 以及各种各样的工具。exml文件格式是德国tüba-d/z treebank和 提供了以(主要是)人类可读格式存储多层语言注释的可能性。
只要您使用的是小文档,用法就相对简单:使用
- ::
导入ExmlDoc 从exmldoc.tree导入树
doc=exmldoc.load('file.exml.xml')
然后,您可以(例如)使用以下命令枚举所有句子:
- ::
- 对于已发送的文档,按类(树)获取对象:
- 打印文档字[sent.span[0]:sent.span[1]
或使用
- ::
- 对于已发送的文档,按类(树)获取对象:
- 对于doc.w_objs[sent.span[0]中的令牌:sent.span[1]
- 打印token.word、token.cat、token.引理
您可以更改文档,然后用
- ::
- doc.save('file_processed.exml.xml')