自动SOTA(最新技术)提取。

sota-extractor的Python项目详细描述


自动SOTA(最新技术)提取

聚合在a free licenses下共享的公共sota表

下载报废数据或自己运行报废程序获取最新数据。

在未来,我们计划自动化从论文中提取任务、数据集和结果的过程。

获取数据

数据保存在data目录中。所有数据都在CC-BY-SA-4许可证下共享。

数据已被解析为一致的json格式,如下所述。

JSON格式说明

格式由五种主要数据类型组成:TaskDatasetSotaSotaRowLink

有效的json文件是Task对象的列表。您可以在data/tasks文件夹中看到示例。

Task

由以下字段组成:

  • task-任务的名称(字符串)
  • description-任务的简短描述,降价(字符串)
  • subtasks-一个包含零个或多个Task对象的列表,这些对象是此任务的子对象(列表)
  • datasets-一个包含零个或多个Dataset对象的列表,在这些对象上对任务进行求值(list)
  • source_link-任务原始源的可选Link对象

Dataset

由以下字段组成:

  • dataset-数据集的名称(字符串)
  • description-降价中的简短描述(字符串)
  • subdatasets-零个或多个子对象(例如数据集子集或数据集分区)(列表)
  • dataset_links-零个或多个Link对象,表示到数据集下载页或任何其他相关外部页(列表)的链接
  • dataset_citations"-零个或多个Link对象,表示作为数据集主要引用的论文。
  • sota-表示此数据集上最新表的Sota对象。

Link

一个Link对象描述一个url,它有以下两个字段:

  • title-链接的标题,即锚文本(字符串)
  • url-目标URL(字符串)

Sota

一个Sota对象表示一个最新的表,具有以下字段:

  • metrics-用于计算方法的度量名称列表(字符串列表)
  • rowssota表中的行列表,对象列表(list)

SotaRow

一个SotaRow对象表示sota表的一行,它有以下字段:

  • model_name-评估模型的名称(字符串)
  • paper_title-原稿标题(字符串)
  • paper_url-原稿的url(字符串)
  • paper_date-纸质出版日期(如果有)(字符串)
  • code_links-一个包含零个或多个Link对象的列表,带有到相关代码实现(list)的链接
  • model_links-一个包含零个或多个Link对象的列表,带有指向相关预训练模型文件的链接(列表)
  • metrics-一个值字典,其中键是来自父Sota.rows列表的字符串,值是测量的性能。(词典)

运行刮板

安装

需要Python3.6+。

pip install -r requirements.txt

NLP进展

NLP-progress是来自nlp任务的sota结果的手注释集合。

刮刀is part of the NLP-progress project

许可证:麻省理工学院

eff

eff在少量任务上注释了一组sota结果,并生成了这个great report

要转换当前的内容运行:

python -m scrapers.eff

许可证:CC-BY-SA-4

小队

Stanford Question Answering Dataset是一个活动项目,用于使用隐藏的测试集评估问答任务。

要删除当前内容,请运行:

python -m scrapers.squad

许可证:CC-BY-SA-4

雷迪佐塔

RedditSota repository列出了所有ml中各种任务的最佳方法。

刮C当前内容运行:

python -m scrapers.redditsota

许可证:apache-2

snli

The Stanford Natural Language Inference (SNLI) Corpus是一个活动项目 用于自然语言推理。

要删除当前内容,请运行:

python -m scrapers.snli

许可证:CC-BY-SA

评估SOTA提取性能

将来,这个存储库还将包含自动sota提取管道。其目的是从论文中自动提取任务、数据集和结果。

要评估所有任务的当前预测性能:

python -m extractor.eval_all

最新的报告可以在这里看到:eval_all_report.csv

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java不可访问配置设计   在java中使用json就像在javascript中一样   java如何屏蔽Android 4.0主密钥   java为什么clickable的预期条件不执行click()?   Azure事件中心:Kafka消费者在java中不轮询任何内容   javajaxb和enum实现接口   java如何在标记下添加ProgressBar和按钮   java如何为对象实现arrayList   使用多重匹配重载java构造方法重载   java使用for循环和if语句搜索帐户   java JPanel在JPanel中添加了顶部填充   IntelliJ将Java项目/模块转换为Maven项目/模块   java如何迭代arraylist中的arraylist   自定义类的java“找不到符号”错误