生物医学摘要的句子标记。
piboso的Python项目详细描述
这个模块包含一个完全独立的piboso实现 赢得Alta2012共享任务的标记器[1]。特征与算法 [2]中描述了使用的。
安装
标记器(包括一个预先训练的模型)打包为一个python模块 并通过pypi分发。安装应该非常简单
pip install piboso
依赖关系
水合[3]-由PIP自动安装 treetagger[4]-必须手动安装
配置
必须指定treetagger所在文件夹的路径
在配置文件中。调用时,piboso_tag
将尝试查找
位于~/.pibosorc和/.pibosorc的配置文件。如果两者都不存在,
它将在./.pibosorc生成一个空白配置文件。路径
应在此配置文件中设置To Treetagger。
可以指定读取配置文件的替代位置
使用-c
命令行选项。
使用标记器
标记器可以通过脚本piboso_tag
调用,这是自动的
在使用pip安装包时安装。最简单的调用是
piboso_tag -o <OUTPUT_PATH> <FILE TO TAG> <FILE TO TAG> …
如果在命令行中没有指定任何文件,piboso_tag
将读取stdin
并将每一行解释为要标记的文件的路径。更详细
有关调用piboso_tag
的信息可以通过调用
piboso_tag –help
文件被假定为句子标记,并以每行一个句子的形式呈现。
格式。由piboso-tag
生成的输出是csv格式,例如:
子样本/1454068-1,背景 子样本/1454068-2,背景 子样本/1454068-3,结果 子样本/1454088-1,背景 子样本/1454088-2,背景 子样本/1454088-3,背景 子样本/1454088-4,背景
每个记录中的第一项是文件的路径和句子编号 被一个破折号隔开。句子从1开始列举。第二项是 指定给句子的标签。
联系人
马可·吕mhlui@unimelb.edu.au>;
[1]http://alta.asn.au/events/sharedtask2012/ [2]http://aclweb.org/anthology-new/U/U12/U12-1019.pdf [3]http://hydrat.googlecode.com [4]http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/