Python dataset-manager包_程序模块 - PyPI

管理和自动化数据科学项目的数据集。

dataset-manager的Python项目详细描述

数据集管理器

使用yaml文件管理和自动化项目的数据集。

当前支持：

工作原理

此项目在数据集目录中创建一个名为identifier.yaml的文件，其中包含以下字段：

source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv

description: this dataset is a test dataset

identifier：是数据集引用的标识符是扩展名为yaml的文件名。

source：来自数据集的位置。

description：描述数据集以便以后记住。

每个数据集都是数据集目录中的一个yaml文件。

安装

只有pip：

pip install dataset_manager

有条件时：

conda install dataset_manager

使用

您可以使用命令列表管理数据集，并与Pandas或其他数据分析工具集成。

经理职能

显示所有数据集

返回包含数据集路径中所有数据集的表

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.show_datasets()

创建数据集

创建一个数据集，其中定义了数据集路径内所需的所有信息。

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.create_dataset(identifier, source, description, **kwargs)

删除数据集

从数据集路径中删除数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.remove_dataset(identifier)

准备数据集

下载并解压缩所有数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.prepare_datasets()

使用多个文件系统

此管理器与Pyfilesystem2集成，您可以使用所有builtin文件系统，也可以使用third-party扩展名或creating your own扩展名。

使用pyfilesystem2，您可以在任何地方下载、提取和管理数据集。

from fs.tempfs import TempFS
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download, TempFS())

manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy

获取一个数据集

获取数据集行作为dict

import pandas as pd
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

dataset = manager.get_dataset(identifier)

df = pd.read_csv(dataset.uri)

数据集函数

下载数据集

基于源下载数据集。这只下载一次，因为验证缓存。它同时适用于http、https和ftp协议。

dataset = manager.get_dataset(identifier)

dataset.download()

解压缩数据集

基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件：fs.archive

dataset = manager.get_dataset(identifier)

dataset.unzip()

准备数据集

准备数据集之前合并这两个。

dataset = manager.get_dataset(identifier)

dataset.prepare()

贡献

你只要提出请求就好了！

让我们一起成长；）

欢迎加入QQ群-->： 979659372

dataset-manager 0.1.0

dataset-manager的Python项目详细描述

数据集管理器

工作原理

安装

使用

经理职能

显示所有数据集
返回包含数据集路径中所有数据集的表
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.show_datasets()`

创建数据集
创建一个数据集，其中定义了数据集路径内所需的所有信息。
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.create_dataset(identifier, source, description, **kwargs)`

删除数据集
从数据集路径中删除数据集
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.remove_dataset(identifier)`

准备数据集
下载并解压缩所有数据集
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.prepare_datasets()`

获取一个数据集
获取数据集行作为dict
`import pandas as pd from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) dataset = manager.get_dataset(identifier) df = pd.read_csv(dataset.uri)`

数据集函数

下载数据集
基于源下载数据集。这只下载一次，因为验证缓存。它同时适用于http、https和ftp协议。
`dataset = manager.get_dataset(identifier) dataset.download()`

解压缩数据集
基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件：fs.archive
`dataset = manager.get_dataset(identifier) dataset.unzip()`

准备数据集
准备数据集之前合并这两个。
`dataset = manager.get_dataset(identifier) dataset.prepare()`

贡献

推荐PyPI第三方库

sc-stream

network-statistics-service

Procpath

sorting-algorithm-visual

distributions-package-iml

django-transmeta-eh

mesures

compute-overtime

probabilibutions

jk-licenses

sheetFeeder

tm-merger

ocs-rise-set

my-cool-lib

distributions424242

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

dataset-manager 0.1.0

dataset-manager的Python项目详细描述

数据集管理器

工作原理

安装

使用

经理职能

显示所有数据集 返回包含数据集路径中所有数据集的表from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.show_datasets()

创建数据集 创建一个数据集，其中定义了数据集路径内所需的所有信息。from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.create_dataset(identifier, source, description, **kwargs)

删除数据集 从数据集路径中删除数据集from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.remove_dataset(identifier)

准备数据集 下载并解压缩所有数据集from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.prepare_datasets()

获取一个数据集 获取数据集行作为dictimport pandas as pd from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) dataset = manager.get_dataset(identifier) df = pd.read_csv(dataset.uri)

数据集函数

下载数据集 基于源下载数据集。这只下载一次，因为验证缓存。 它同时适用于http、https和ftp协议。dataset = manager.get_dataset(identifier) dataset.download()

解压缩数据集 基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件：fs.archivedataset = manager.get_dataset(identifier) dataset.unzip()

准备数据集 准备数据集之前合并这两个。dataset = manager.get_dataset(identifier) dataset.prepare()

贡献

推荐PyPI第三方库

sc-stream

network-statistics-service

Procpath

sorting-algorithm-visual

distributions-package-iml

django-transmeta-eh

mesures

compute-overtime

probabilibutions

jk-licenses

sheetFeeder

tm-merger

ocs-rise-set

my-cool-lib

distributions424242

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

显示所有数据集
返回包含数据集路径中所有数据集的表
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.show_datasets()`

创建数据集
创建一个数据集，其中定义了数据集路径内所需的所有信息。
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.create_dataset(identifier, source, description, **kwargs)`

删除数据集
从数据集路径中删除数据集
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.remove_dataset(identifier)`

准备数据集
下载并解压缩所有数据集
`from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) manager.prepare_datasets()`

获取一个数据集
获取数据集行作为dict
`import pandas as pd from dataset_manager import DatasetManager manager = DatasetManager(dataset_path, local_path_to_download) dataset = manager.get_dataset(identifier) df = pd.read_csv(dataset.uri)`

下载数据集
基于源下载数据集。这只下载一次，因为验证缓存。它同时适用于http、https和ftp协议。
`dataset = manager.get_dataset(identifier) dataset.download()`

解压缩数据集
基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件：fs.archive
`dataset = manager.get_dataset(identifier) dataset.unzip()`

准备数据集
准备数据集之前合并这两个。
`dataset = manager.get_dataset(identifier) dataset.prepare()`

导航栏

项目链接

标签