自动SOTA(最新技术)提取。
sota-extractor的Python项目详细描述
自动SOTA(最新技术)提取
聚合在a free licenses下共享的公共sota表。
下载报废数据或自己运行报废程序获取最新数据。
在未来,我们计划自动化从论文中提取任务、数据集和结果的过程。
获取数据
数据保存在data目录中。所有数据都在CC-BY-SA-4许可证下共享。
数据已被解析为一致的json格式,如下所述。
JSON格式说明
格式由五种主要数据类型组成:Task
、Dataset
、Sota
、SotaRow
和Link
。
有效的json文件是Task
对象的列表。您可以在data/tasks文件夹中看到示例。
Task
由以下字段组成:
task
-任务的名称(字符串)description
-任务的简短描述,降价(字符串)subtasks
-一个包含零个或多个Task
对象的列表,这些对象是此任务的子对象(列表)datasets
-一个包含零个或多个Dataset
对象的列表,在这些对象上对任务进行求值(list)source_link
-任务原始源的可选Link
对象
Dataset
由以下字段组成:
dataset
-数据集的名称(字符串)description
-降价中的简短描述(字符串)subdatasets
-零个或多个子对象(例如数据集子集或数据集分区)(列表)dataset_links
-零个或多个Link
对象,表示到数据集下载页或任何其他相关外部页(列表)的链接dataset_citations"
-零个或多个Link
对象,表示作为数据集主要引用的论文。sota
-表示此数据集上最新表的Sota
对象。
Link
一个Link
对象描述一个url,它有以下两个字段:
title
-链接的标题,即锚文本(字符串)url
-目标URL(字符串)
Sota
一个Sota
对象表示一个最新的表,具有以下字段:
metrics
-用于计算方法的度量名称列表(字符串列表)rows
sota表中的行列表,对象列表(list)
SotaRow
一个SotaRow
对象表示sota表的一行,它有以下字段:
model_name
-评估模型的名称(字符串)paper_title
-原稿标题(字符串)paper_url
-原稿的url(字符串)paper_date
-纸质出版日期(如果有)(字符串)code_links
-一个包含零个或多个Link
对象的列表,带有到相关代码实现(list)的链接model_links
-一个包含零个或多个Link
对象的列表,带有指向相关预训练模型文件的链接(列表)metrics
-一个值字典,其中键是来自父Sota.rows
列表的字符串,值是测量的性能。(词典)
运行刮板
安装
需要Python3.6+。
pip install -r requirements.txt
NLP进展
NLP-progress是来自nlp任务的sota结果的手注释集合。
刮刀is part of the NLP-progress project。
许可证:麻省理工学院
eff
eff在少量任务上注释了一组sota结果,并生成了这个great report。
要转换当前的内容运行:
python -m scrapers.eff
许可证:CC-BY-SA-4
小队
Stanford Question Answering Dataset是一个活动项目,用于使用隐藏的测试集评估问答任务。
要删除当前内容,请运行:
python -m scrapers.squad
许可证:CC-BY-SA-4
雷迪佐塔
RedditSota repository列出了所有ml中各种任务的最佳方法。
刮C当前内容运行:
python -m scrapers.redditsota
许可证:apache-2
snli
The Stanford Natural Language Inference (SNLI) Corpus是一个活动项目 用于自然语言推理。
要删除当前内容,请运行:
python -m scrapers.snli
许可证:CC-BY-SA
评估SOTA提取性能
将来,这个存储库还将包含自动sota提取管道。其目的是从论文中自动提取任务、数据集和结果。
要评估所有任务的当前预测性能:
python -m extractor.eval_all
最新的报告可以在这里看到:eval_all_report.csv。