管理和自动化数据科学项目的数据集。

dataset-manager的Python项目详细描述


数据集管理器

使用yaml文件管理和自动化项目的数据集。

Build Status

当前支持:Python 3.5Python 3.6Python 3.7Python 3.8

工作原理

此项目在数据集目录中创建一个名为identifier.yaml的文件,其中包含以下字段:

source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv

description: this dataset is a test dataset

identifier:是数据集引用的标识符是扩展名为yaml的文件名。

source:来自数据集的位置。

description:描述数据集以便以后记住。

每个数据集都是数据集目录中的一个yaml文件。

安装

只有pip:

pip install dataset_manager

有条件时:

conda install dataset_manager

使用

您可以使用命令列表管理数据集,并与Pandas或其他数据分析工具集成。

经理职能

显示所有数据集

返回包含数据集路径中所有数据集的表

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.show_datasets()

创建数据集

创建一个数据集,其中定义了数据集路径内所需的所有信息。

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.create_dataset(identifier, source, description, **kwargs)

删除数据集

从数据集路径中删除数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.remove_dataset(identifier)

准备数据集

下载并解压缩所有数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.prepare_datasets()

使用多个文件系统

此管理器与Pyfilesystem2集成,您可以使用所有builtin文件系统,也可以使用third-party扩展名或creating your own扩展名。

使用pyfilesystem2,您可以在任何地方下载、提取和管理数据集。

from fs.tempfs import TempFS
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download, TempFS())

manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy

获取一个数据集

获取数据集行作为dict

import pandas as pd
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

dataset = manager.get_dataset(identifier)

df = pd.read_csv(dataset.uri)

数据集函数

下载数据集

基于源下载数据集。这只下载一次,因为验证缓存。 它同时适用于http、https和ftp协议。

dataset = manager.get_dataset(identifier)

dataset.download()

解压缩数据集

基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件:fs.archive

dataset = manager.get_dataset(identifier)

dataset.unzip()

准备数据集

准备数据集之前合并这两个。

dataset = manager.get_dataset(identifier)

dataset.prepare()

贡献

你只要提出请求就好了!

让我们一起成长;)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
文件名的java正则表达式限制名称大小和文件扩展名   Mac上的java Android SDK:jspawnhelper意外退出   java SQL Server 2000到Oracle 12c重音字符   在Java中快速比较大数据集中的值和小数据集中的值   java在代码中的许多地方保留对对象的引用   Java规范中私有内部类的jvm访问标志与反射API不一致?   比较2个int数组中匹配的数字   java Apache Commons数学简化回归:get prediction stderr   安卓 Java SDK管理器因命令行输出中的“flashplayerplugin”而崩溃   JavaSQLite:关闭DB时必须关闭游标吗?   泛型Java设计抽象类声明示例说明   java应用程序在添加片段时崩溃   如何在java中使用注释为字段加载值