将naf格式的文件转换为conll格式的脚本

naf2conll的Python项目详细描述


氟化钠

用于将naf格式的coreference数据转换为CoNLL format的脚本。

啊!!注意!!目前,此脚本仅支持以下列:

  • 1:文档ID
  • 3:字数
  • 4:单词本身
  • 12:共指

naf支持以下conll列,但此脚本尚未(正确)处理这些列:

  • 5:POS标签
  • 6:选区树
  • …?
  • 11:命名实体

有关conll格式的详细说明,请参见CoNLL-specification.md

用法

naf2conll.py

要自动查找包含NAF文件的所有(子)文件夹并转换这些文件夹中的所有数据,请运行:

naf2conll.py path/to/output_dir -d path/to/some/folder [-d path/to/another/folder ...]

要只转换一个文件,请运行:

naf2conll.py path/to/output.conll path/to/input.naf

conll输出列

默认情况下,仅输出列1、3、4和12。

如果选择输出更多列,则使用以下值和占位符。

ColumnDescriptionValueConform CoNLL specification?
1Document IDfile path without extensionYes
2Part number^{}Yes
3Word numbergeneratedYes
4Word itselfextracted from text layer of NAFYes
5POS^{}No
6Parse bit^{}No
7Predicate lemma^{}Yes
8Predicate Frameset ID^{}Yes
9Word sense^{}Yes
10Speaker/Author^{}???
11Named Entities^{}Yes
-Predicate ArgumentsNone: column(s) left out entirelyYes, conform example in CoNLL 2012
12Coreferenceextracted from coreference layer of NAF (ISSUE! [1])Yes

[1]: 如果引用跨距以同一个单词结尾,则它们不会以正确的顺序闭合。以下是naf2conll.py的输出示例:

          (10
            -
      (52|(55
          52)
            -
10)|55)|(133)

学究式的正确答案是:

          (10
            -
      (55|(52
          52)
            -
(133)|55)|10)

问题

  • []“on_missing”配置键在使用前未验证
  • []当extract_coref_sets中没有coref层时引发错误

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从客户端使用UDDI的异步订阅服务?   加密Java加密并将向量保存到文件   递归中的java返回数集   java组织。jboss。部署。DeploymentException:嵌套可丢弃   java如何从命令行发送包含多行的字符串   java我可以用GetObjectById来表示2个ID吗?   java如何修复“执行DDL时出错”alter table事件删除外键FKg0mkvgsqn8584qoql6a2rxheq“通过JDBC语句”   使用Seam和JBoss AS访问OpenLDAP的java最佳框架?   java Apache KafkaMetric value方法已弃用,如何使用metricValue?   在Java中检查字符串是否为null时,如果(str==null)不正确,那么为什么(str!=null&&!str.isEmpty())被认为是正确的   DefaultMutableTreeNode中的java isRoot()   爪哇三叶草。木卫一。IOException,在CloudConnect中运行图形时禁止的异常   java安全非重复随机字母数字URL段塞   java HttpClient无法访问GET方法中的Cookie   java中如何将字符串转换为字符串数组   使用downloadmanager下载java Android studio,然后打开下载的文件