在BioNLP格式之间转换

bconv的Python项目详细描述


bconv:用于在BioNLP格式之间转换的Python库

bconv提供格式转换和对带有文本和批注的文档的操作。 它支持在生物医学文本的自然语言处理中使用的各种流行格式。在

支持的格式

当前支持以下格式:

NameIOTADescription
^{}, ^{}BioC
^{}BioNLP stand-off
^{}brat stand-off
^{}CoNLL
^{}, ^{}Europe-PMC JSON
^{}, ^{}PubTator
^{}, ^{}PubMed abstracts
^{}, ^{}PMC full-text
^{}, ^{}PubAnnotation JSON
^{}, ^{}comma/tab-separated values
^{}, ^{}comma/tab-separated values
^{}plain text
^{}collection of plain-text documents

I:输入格式; O:输出格式; T:可以表示文本; A:可以表示注释(实体)。在

安装

bconv托管在PyPI上,因此您可以使用pip来安装它:

$ pip install bconv

默认情况下,pip尝试系统级安装,这可能需要管理员权限。 或者,对当前用户拥有的安装使用pip--user标志。在

使用

以bic-XML格式加载带注释的集合:

^{pr2}$

集合是一系列文档对象:

>>> coll[0]<Document with 12 subelements at 0x7f1966e2f6d8>

文件包含部分,其中包含以下句子:

>>> sent=coll[0][3][5]>>> sent.text'A Live cell imaging reveals that expression of GFP‐KSHV‐TK, but not GFP induces contraction of HeLa cells.'

找到这个句子的第一个注释:

>>> e=next(sent.iter_entities())>>> e.start,e.end,e.text(571, 578, 'KSHV‐TK')>>> e.info{'type': 'gene/protein', 'ui': 'Uniprot:F5HB62'}

将整个集合以CoNLL格式写入新文件:

>>> withopen('path/to/example.conll','w',encoding='utf8')asf:... bconv.dump(coll,f,fmt='conll',tagset='IOBES',include_offsets=True)

文件

bconv记录在GitHub wiki中。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java不兼容类型:MainActivity无法转换为LifecycleOwner   java安卓是一种更有效的读取大文本文件的方法   java导出LWJGL本地人与项目?(IntelliJ IDEA)   JDK更新后,JavaJShell不再在下一行打印输出   父类对象上的继承Java比较子属性   Java:有没有一个容器可以有效地结合HashMap和ArrayList?   安卓 Java对象指针   java在annotationdriven Spring MVC应用程序中实现大气   java 安卓源代码构建应用找不到安卓supportv4。罐子   文件系统上的抽象层和Java中的jar/zip   java在水平滚动视图中添加多个图像?   java如何从firebase实时数据库中获取字符串数组   WIndows 10工作站上的java未满足链接错误   java命令在终端中工作,但在使用过程中出现“无结束引号”错误。执行官