一致地将数据集划分为训练集和测试集
data-partitioner的Python项目详细描述
数据分区器
可用于一致划分数据集的简单项目 分成两部分-一个测试集和一个训练集。还有一些有用的 方法,该方法提供了一种将元素分成更多组的方法。
安装
安装此模块的最简单方法是通过pip:
$ pip install data_partitioner
用法
使用这个模块非常简单。主模块(DatasetSuplier) 提供两个返回训练集(training_set())或 测试集(test_set())。这两种方法都是一致的,所以 不管你在同一个对象上调用它们多少次,它们都会 返回相同的元素集。
您可以指定两个配置选项:
- training_percent-用于 训练集。它默认为0.8。
- partitioning_function-用于划分 数据集。
- 它默认为data_partitioner.pseudorandom_function,这将 将数据集的每个元素随机分配给任意一个测试集 或者训练场。
- 另一个有用的现有选项,您可以将其设置为 data_partitioner.LinearFakeRandomFunction,这将确保 训练集中的任何元素都不在 测试集。
- 您也可以手动编写这个可调用的,这需要一个 参数作为输入-当前考虑的元素的索引。
示例
from data_partitioner import DatasetSuplier dataset = [ ('Alice', 10, 23, 401), ('Bob', 20, 40, 812), ('Christine', 41, 92, 533), ('Dave', 843, 12, -5), ('Elizabeth', 682, 33, -7), ('Fred', 95, 642, 34), ] suplier = DatasetSuplier(dataset) for iteration in range(100): for element in suplier.training_set(): do_train(element[1]) for element in suplier.test_set(): do_evaluate(element[1])