基于图的多级标注语料库处理

discoursegraphs的Python项目详细描述


语篇图表

最新版本bsd license构建状态test coverage代码问题docker构建状态

这个库使你能够处理多层次的语言语料库 注释数量:

  1. 将不同的注释格式转换为单独的图形并
  2. 将这些图合并为一个多有向图(基于 注释层的标记化)
  3. 将(合并的)图形导出为多种输出格式
  4. 直接在 ipython笔记本中可视化语言图形

导入格式

到目前为止,可以导入和合并以下格式:

导出格式

语篇图表可以将图表导出为以下格式/ 对于以下工具:

  • dot格式,由开源图形可视化软件使用
  • geoff格式,由neo4j图形数据库使用
  • gexf graphml 各种工具(如 gephi cytoscape
  • paula xml 1.1 ,一种交换格式 对于语言数据(导出器仍然是错误的)
  • exmaralda ,一个用于注释口语中的跨距的工具 或书面语言
  • conll 2009 (到目前为止,仅导出标记、句子边界和共指)

安装

这应该可以在linux和mac osx上使用python 2.7来实现。 pip或简易安装。

从pypi安装
pip install discoursegraphs # prepend 'sudo' if needed

或者,如果你是老学生:

easy_install discoursegraphs # prepend 'sudo' if needed

从源安装
sudo apt-get install python-dev libxml2-dev libxslt-dev pkg-config graphviz-dev libgraphviz-dev -y
sudo easy_install -U setuptools
git clone https://github.com/arne-cl/discoursegraphs.git
cd discoursegraphs
sudo python setup.py install

用法

语篇图表的命令行界面允许您 合并句法、修辞结构、连接词和咒语 将注释文件存储到一个图形中,并将此图形存储在多个图形中的一个图形中 输出格式(例如,由neo4j图形数据库使用的geoff格式 或Graphviz绘图工具使用的格式。

discoursegraphs -t syntax/maz-13915.xml -r rst/maz-13915.rs3 -c connectors/maz-13915.xml -a anaphora/tosik/das/maz-13915.txt -o dot
dot -Tpdf doc.dot > discoursegraph.pdf # generates a PDF from the dot file

如果你只对其中一层感兴趣,你会 必须直接调用代码:

import discoursegraphs as dg
tiger_docgraph = dg.read_tiger('syntax/doc.xml')
rst_docgraph = dg.read_rs3('rst/doc.rs3')
expletives_docgraph = dg.read_anaphoricity('expletives/doc.txt')

本例中生成的所有文档图都是从 networkx.multidigraph 类,因此您应该能够使用它的所有 方法:

文档

提供源代码文档 此处 ,但您始终可以获得 使用sphinx的最新本地副本

通过在中运行以下命令,可以生成HTML或PDF版本 文档 目录:

make latexpdf
<P>生成pdf( docs/u build/latex/discountersegraphs.pdf )和

make html

生成一组HTML文件( docs/u build/html/index.html )。

要求

如果您想可视化图形,还需要:

许可证和引证

本软件根据3条BSD许可证发布。如果你使用 在您的学术著作中,请引用以下论文:

Neumann,A.2015年。语篇图:一种基于图的合并工具和转换器 用于多层标注语料库。第20届北欧会议记录 计算语言学(Nodalida 2015),第309-312页。

@inproceedings{neumann2015discoursegraphs,
  title={discoursegraphs: A graph-based merging tool and converter for multilayer annotated corpora},
  author={Neumann, Arne},
  booktitle={Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015)},
  pages={309-312},
  year={2015}
}

作者

阿恩·诺依曼

下载这个的人也喜欢

  • saltnpepper :一个用于各种语言数据格式的转换框架
  • 导出 :处理话语注释语料库(sdrt、rst和pdtb)
  • 树形工具 :用于转换树形链接和语法提取的库(支持 i.a.tigerxml和negra/tüba导出格式)
  • tcfnetworks :用于从带注释的文本语料库(基于tcf)创建图形的库。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java静态键入和编写一个简单的矩阵库   java如何最小化层次结构的代码量   这是在Google云数据存储中使用Java按键查询的正确方法吗?   java Android php+mysql+json执行异步任务时出错   java Hadoop Hbase访问被拒绝异常   java如何在json中指定特定的对象路径   JavaSpringJPA/Hibernate在使用@modify和@Query进行特殊更新之前调用完整更新   java多个错误通知   java插入Linkedlist和Node   java将图像放在webview中并调整其宽度   Java没有真实属性的缺点是什么?   java“isGooglePlayServicesAvailable”(此)已被弃用   java托管HIPPO CMS   安卓 Java。网URI构造函数不是编码字符(&C)   java如何用hibernate映射Deque?   java传递枚举类型作为参数   java自由堆大小在Maven中不会增加   java如何使用hashmap和arraylist的循环逻辑?   java如何使用JDBC复制MySql数据库