DDHI编码工具

ddhi-encoder的Python项目详细描述


帮助创建 泰伊编码口述历史访谈。达特茅斯数码公司的一部分 历史倡议。在

DDHI编码器

ddhi编码器包正在开发中,以协助编码器 泰伊口述历史访谈笔录的DDHI项目。在 目前,它包含三个命令行实用程序:

  1. ddhi_convert:将达特茅斯DVP转录本从docx转换为 tei.xml文件. 在
  2. ddhi_tag:对DDHI-TEI执行命名实体标记 转录。在
  3. ddhi_mentioned_places:从隔离标记中提取位置 用于使用OpenRefine进行处理
  4. ddhi_update_places:更新隔离标记中的位置

安装

您可以使用pip安装此软件包:

pip install ddhi-encoder

要使用ddhi_tag生成命名实体标记,您需要一个空格 模型。在运行ddhi_tag之前,请安装Spacy的small English model:

^{pr2}$

有关详细信息,请参见the Spacy documentation 信息。在

使用

使用ddhi_convert将DOCX编码的转录转换为 简单结构的TEI文档:

ddhi_convert ~/Desktop/transcripts/zien_jimmy_transcript_final.docx -o tmp.tei.xml

使用ddhi_tag将命名实体标记添加到TEI编码的 抄写:

ddhi_tag -o zien.tei.xml tmp.tei.xml

然后编码器会编辑采访文本, 更正自动生成的命名实体标记并添加新的 一个。此编辑阶段完成后,请使用 ddhi_generate_standoff在 采访中的实体和姓名链接。在

使用ddhi_mentioned_places提取TEI文件中的位置 制表位标记并将其打印为制表符分隔的值:

ddhi_mentioned_places lovely.tei.xml > lovely.tsv

然后使用OpenRefine或其他工具使用 标识符和其他元数据。在

使用ddhi_update_places更新TEI文件中的位置 通过获取标识符和地理坐标的防区外标记 OpenRefine或其他程序:

ddhi_update_places lovely.tei.xml lovely_updates.tsv >
updated_lovely.tei.xml

类似地,使用ddhi_mentioned_eventsddhi_update_events来 对事件执行相同的操作。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java7和Java8中从现有列表创建不同的列表?   java如何在HP ALM中上载测试结果   java请检查我想使用的代码,当用户在第一次输入中输入0时,条件必须停止   带显示列表的java OpenGL照明   尝试获取活动的DefaultSharedReferences时发生java NullPointerException   java如何区分日期时间类型应为yyyymmdd hh:mm:ss的两个日期   Java中对象上的循环   java jvm挂起并杀死3&jmap失败   Tomcat下的java URLClassLoader   java如何对基于KinesRecord的DoFn进行单元测试?   java Estado HTTP 404–找不到Eclipse/Tomcat   java Spring:缺少必需的请求正文。无法将JSON传递给RestController   java Drools工作台目标   java@Async在REST类中不起作用   rest如何在用户使用java输入时更有效地从Yammer获取消息?   java监视递归过程中创建的内部堆栈上的值   java如何集群和负载平衡Spring+OSGi应用程序   java NotSerializableException对象