生物医学文本挖掘中的关系抽取工具
kindred的Python项目详细描述
同类
kindred是一个python3包,用于生物医学文本中的关系提取。给定一些训练数据,它可以建立一个模型来识别句子中实体(如药物、基因等)之间的关系。
安装
pip install kindred
从v2开始,kindred依赖于Spacy工具包进行解析。在安装了kindred(它也安装了spacy)之后,您需要安装一个spacy语言模型。例如,下面的命令安装英语语言模型:
python -m spacy download en
用法
查看tutorial,它通过一个从文本中提取首都城市的简单用例。更多详细信息和完整文档可以在readthedocs找到。
bionlp共享任务示例
import kindred
trainCorpus = kindred.bionlpst.load('2016-BB3-event-train')
devCorpus = kindred.bionlpst.load('2016-BB3-event-dev')
predictionCorpus = devCorpus.clone()
predictionCorpus.removeRelations()
classifier = kindred.RelationClassifier()
classifier.train(trainCorpus)
classifier.predict(predictionCorpus)
f1score = kindred.evaluate(devCorpus, predictionCorpus, metric='f1score')
pubAnnotation示例
corpus = kindred.pubannotation.load('bionlp-st-gro-2013-development')
发布者示例
corpus = kindred.pubtator.load([19894120,19894121])
输入格式
kindred可以加载多种格式,包括bionlp共享任务、json、bioc xml和简单的标记格式。查看file format documentation示例数据和代码。
引用
如果你能引用这个软件包的associated paper来做学术研究,那就太好了。
@article{lever2017painless,
title={Painless {R}elation {E}xtraction with {K}indred},
author={Lever, Jake and Jones, Steven},
journal={BioNLP 2017},
pages={176--183},
year={2017}
}
贡献
我们非常欢迎您的贡献。
许可证
根据MIT许可证的条款分发,“kindred”是免费的开源软件
问题
如果您遇到任何问题,请file an issue连同详细说明。