为grobid数量服务的最小客户。
grobid-quantities-client的Python项目详细描述
python客户端查询Grobid Quantities service API 有关grobid数量的更多信息,请查看Grobid Quantities Documentation。
安装
可以使用pip安装客户机
pip install grobid-quantities-python
用法
处理文本/pdf
fromgrobid_quantities.quantitiesimportQuantitiesClientclient=QuantitiesClient(apiBase=server_url)
要处理原始文本:
client.process_text("I lost two minutes")
处理PDF
client.process_pdf(pdfFile)
分析测量值
client.parse_measures("from":"10","to":"20","unit":"km")
响应是一个元组,其中第一个元素是状态码,第二个元素是作为字典的响应体。 下面是一个示例:
(200,{"runtime":123,"measurements":[{"type":"value","quantity":{"type":"time","rawValue":"two","rawUnit":{"name":"minutes","type":"time","system":"non SI","offsetStart":11,"offsetEnd":18},"parsedValue":{"numeric":2,"structure":{"type":"ALPHABETIC","formatted":"two"},"parsed":"two"},"normalizedQuantity":120,"normalizedUnit":{"name":"s","type":"time","system":"SI base"},"offsetStart":7,"offsetEnd":11}}]})
批处理
批处理在类QuantitiesBatch中实现。 类可以通过在构造函数中定义实体钓鱼url来实例化,否则使用默认的。
要运行处理,方法process需要input目录、回调和线程/进程数。 script/batchsample.py中已经有一个现成的实现。
- 要运行它:
- 在此工作分支下,准备两个文件夹:输入其中包含要处理的输入pdf文件,以及输出其中收集处理结果
- 我们建议使用$pip install-r/path/of/grobid quantities python client/source/requirements.txt创建一个新的virtualenv,激活它并安装此虚拟环境中所需的所有需求
- (暂时,直到此分支未合并)在编辑模式下安装实体钓鱼多线程分支(pip install-e/path/of/client python/source)
- 使用python runfile.py input output 5运行它