一致地将数据集划分为训练集和测试集

data-partitioner的Python项目详细描述


数据分区器

可用于一致划分数据集的简单项目 分成两部分-一个测试集和一个训练集。还有一些有用的 方法,该方法提供了一种将元素分成更多组的方法。

安装

安装此模块的最简单方法是通过pip

$ pip install data_partitioner

用法

使用这个模块非常简单。主模块(DatasetSuplier) 提供两个返回训练集(training_set())或 测试集(test_set())。这两种方法都是一致的,所以 不管你在同一个对象上调用它们多少次,它们都会 返回相同的元素集。

您可以指定两个配置选项:

  • training_percent-用于 训练集。它默认为0.8
  • partitioning_function-用于划分 数据集。
  • 它默认为data_partitioner.pseudorandom_function,这将 将数据集的每个元素随机分配给任意一个测试集 或者训练场。
  • 另一个有用的现有选项,您可以将其设置为 data_partitioner.LinearFakeRandomFunction,这将确保 训练集中的任何元素都不在 测试集。
  • 您也可以手动编写这个可调用的,这需要一个 参数作为输入-当前考虑的元素的索引。

示例

from data_partitioner import DatasetSuplier

dataset = [
    ('Alice', 10, 23, 401),
    ('Bob', 20, 40, 812),
    ('Christine', 41, 92, 533),
    ('Dave', 843, 12, -5),
    ('Elizabeth', 682, 33, -7),
    ('Fred', 95, 642, 34),
]
suplier = DatasetSuplier(dataset)

for iteration in range(100):
    for element in suplier.training_set():
        do_train(element[1])
for element in suplier.test_set():
    do_evaluate(element[1])

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java组织。springframework。jdbc。CannotGetJdbcConnectionException:无法获取JDBC连接;   java构造函数(int,int,string)未定义;在LWJGL中创建显示   java每当我调用一个函数时,静态函数是否会在类中自动被调用?   java如何为deck类toString方法编写函数   java分析堆使用JUnit JavaFx的内容   JavaJSF2+RichFaces在托管bean中设置变量时遇到问题   java Twitter API无法更新包含圆括号的状态   java Lucene LongField错误   Java正则表达式匹配零次或一次   通过linux中的java代码从windows共享使用数据的文件系统   java Android试图在不使用移动网络的情况下向自己发送虚假短信   Android ListView中的java增长堆   java CheckStyle检查未被忽略   数组java随机选取一个类/对象   java使用Jackson仅使用规范类型字符串反序列化JSON   使用两种编程语言生成的java UUID?   case equals方法中的java hashCode方法支持wildchar