在BioNLP格式之间转换
bconv的Python项目详细描述
bconv
:用于在BioNLP格式之间转换的Python库
bconv
提供格式转换和对带有文本和批注的文档的操作。
它支持在生物医学文本的自然语言处理中使用的各种流行格式。在
支持的格式
当前支持以下格式:
Name | I | O | T | A | Description |
---|---|---|---|---|---|
^{ | ✓ | ✓ | ✓ | ✓ | BioC |
^{ | ✓ | ✓ | BioNLP stand-off | ||
^{ | ✓ | ✓ | brat stand-off | ||
^{ | ✓ | ✓ | ✓ | ✓ | CoNLL |
^{ | ✓ | ✓ | Europe-PMC JSON | ||
^{ | ✓ | ✓ | ✓ | ✓ | PubTator |
^{ | ✓ | ✓ | PubMed abstracts | ||
^{ | ✓ | ✓ | PMC full-text | ||
^{ | ✓ | ✓ | ✓ | PubAnnotation JSON | |
^{ | ✓ | ✓ | comma/tab-separated values | ||
^{ | ✓ | ✓ | ✓ | comma/tab-separated values | |
^{ | ✓ | ✓ | ✓ | plain text | |
^{ | ✓ | ✓ | ✓ | collection of plain-text documents |
I:输入格式; O:输出格式; T:可以表示文本; A:可以表示注释(实体)。在
安装
bconv
托管在PyPI上,因此您可以使用pip
来安装它:
$ pip install bconv
默认情况下,pip
尝试系统级安装,这可能需要管理员权限。
或者,对当前用户拥有的安装使用pip
的--user
标志。在
使用
以bic-XML格式加载带注释的集合:
^{pr2}$集合是一系列文档对象:
>>> coll[0]<Document with 12 subelements at 0x7f1966e2f6d8>
文件包含部分,其中包含以下句子:
>>> sent=coll[0][3][5]>>> sent.text'A Live cell imaging reveals that expression of GFP‐KSHV‐TK, but not GFP induces contraction of HeLa cells.'
找到这个句子的第一个注释:
>>> e=next(sent.iter_entities())>>> e.start,e.end,e.text(571, 578, 'KSHV‐TK')>>> e.info{'type': 'gene/protein', 'ui': 'Uniprot:F5HB62'}
将整个集合以CoNLL格式写入新文件:
>>> withopen('path/to/example.conll','w',encoding='utf8')asf:... bconv.dump(coll,f,fmt='conll',tagset='IOBES',include_offsets=True)
文件
bconv
记录在GitHub wiki中。在
- 项目
标签: