DDHI编码工具
ddhi-encoder的Python项目详细描述
帮助创建 泰伊编码口述历史访谈。达特茅斯数码公司的一部分 历史倡议。在
DDHI编码器
ddhi编码器包正在开发中,以协助编码器 泰伊口述历史访谈笔录的DDHI项目。在 目前,它包含三个命令行实用程序:
- ddhi_convert:将达特茅斯DVP转录本从docx转换为 tei.xml文件. 在
- ddhi_tag:对DDHI-TEI执行命名实体标记 转录。在
- ddhi_mentioned_places:从隔离标记中提取位置 用于使用OpenRefine进行处理
- ddhi_update_places:更新隔离标记中的位置
安装
您可以使用pip安装此软件包:
pip install ddhi-encoder
要使用ddhi_tag生成命名实体标记,您需要一个空格 模型。在运行ddhi_tag之前,请安装Spacy的small English model:
^{pr2}$有关详细信息,请参见the Spacy documentation 信息。在
使用
使用ddhi_convert将DOCX编码的转录转换为 简单结构的TEI文档:
ddhi_convert ~/Desktop/transcripts/zien_jimmy_transcript_final.docx -o tmp.tei.xml
使用ddhi_tag将命名实体标记添加到TEI编码的 抄写:
ddhi_tag -o zien.tei.xml tmp.tei.xml
然后编码器会编辑采访文本, 更正自动生成的命名实体标记并添加新的 一个。此编辑阶段完成后,请使用 ddhi_generate_standoff在 采访中的实体和姓名链接。在
使用ddhi_mentioned_places提取TEI文件中的位置 制表位标记并将其打印为制表符分隔的值:
ddhi_mentioned_places lovely.tei.xml > lovely.tsv
然后使用OpenRefine或其他工具使用 标识符和其他元数据。在
使用ddhi_update_places更新TEI文件中的位置 通过获取标识符和地理坐标的防区外标记 OpenRefine或其他程序:
ddhi_update_places lovely.tei.xml lovely_updates.tsv > updated_lovely.tei.xml
类似地,使用ddhi_mentioned_events和ddhi_update_events来 对事件执行相同的操作。在
- 项目
标签: