金融市场综合数据生成工具

datahub-core-groves的Python项目详细描述


DataHub logo

合成数据生成

DataHub是一组python库,专门用于生成测试、机器学习培训、统计分析和其他用例中使用的合成数据wiki。DataHub使用现有的数据集来生成合成模型。如果没有可用的现有数据,它将使用用户提供的脚本和数据规则来使用现成的助手数据集生成合成数据。在

合成数据集只是人工制造的集合,以期望的精确度产生。真实数据在合成生成中确实起到了一定的作用,这完全取决于您所需要的真实性。产品路线图详细说明了在这方面计划的功能。在

DataHub的核心主要是基于pandas数据帧和对象生成。 一个常见的问题:现在我有了一个合成数据的数据框架,我该如何处理它?Pandas库在这里提供了一系列的选项,因此目前沉沦于数据库已经超出了核心库的范围,但是可以在test文件夹中查看一些常见模式的示例。在

note当我们构建一个基于配置的合成规范生成器时,我们将把它重新纳入范围-请参阅我们的路线图/问题列表并参与讨论。在

关键文件

  1. 有关如何开始使用DataHub的信息,请参阅我们的Getting Started Guide
  2. 有关DataHub以及如何自定义它的更多技术信息,请参阅Developer Guide
  3. 高级路线图请参见Road Map

合成数据概述

  • 合成数据是人工制造的信息,而不是真实世界事件生成的信息。在
  • 合成数据是在算法上创建的,可以作为生产数据的测试数据集的替代
  • Real data在合成数据生成中确实扮演了一个角色-取决于 现实你想要的输出

许可证

版权所有2020花旗集团

分布在Apache License, Version 2.0下。在

SPDX许可证标识符:Apache-2.0

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java是从此类字符串中提取数据的最佳方法   filenotfoundexception Java FileOutputStream Windows/Linux   java在SQLite数据库Android SDK中搜索特定字符串   java使用键值访问jsp中Map<Long,Map<String,Object>>的内容   java奇怪的HTMLeditor工具包问题   在java中使用数组只计算字母   每个应用程序都可以有自己独立的Java SDK吗   java如何将jasper报告生成的PDF文件保存在一个项目文件夹中   java BigDecimal包装器:静态字段为零   解码Base64图像时出现java IllegalArgumentException(非法的Base64字符)   将int转换为字节在Java和Actionscript中产生不同的结果   java什么使不可变对象在没有安全发布技术的情况下发布?   java将字节数据写入目录   一个计算器中有多个操作的java问题   面向对象Java重写是如何工作的   带hibernate的java ClassCastException   指向最后一个对象的java对象列表   java单元测试spring项目中的Get请求