金融市场综合数据生成工具
datahub-core-groves的Python项目详细描述
合成数据生成
DataHub是一组python库,专门用于生成测试、机器学习培训、统计分析和其他用例中使用的合成数据wiki。DataHub使用现有的数据集来生成合成模型。如果没有可用的现有数据,它将使用用户提供的脚本和数据规则来使用现成的助手数据集生成合成数据。在
合成数据集只是人工制造的集合,以期望的精确度产生。真实数据在合成生成中确实起到了一定的作用,这完全取决于您所需要的真实性。产品路线图详细说明了在这方面计划的功能。在
DataHub的核心主要是基于pandas数据帧和对象生成。 一个常见的问题:现在我有了一个合成数据的数据框架,我该如何处理它?Pandas库在这里提供了一系列的选项,因此目前沉沦于数据库已经超出了核心库的范围,但是可以在test文件夹中查看一些常见模式的示例。在
note当我们构建一个基于配置的合成规范生成器时,我们将把它重新纳入范围-请参阅我们的路线图/问题列表并参与讨论。在
关键文件
- 有关如何开始使用DataHub的信息,请参阅我们的Getting Started Guide
- 有关DataHub以及如何自定义它的更多技术信息,请参阅Developer Guide
- 高级路线图请参见Road Map
合成数据概述
- 合成数据是人工制造的信息,而不是真实世界事件生成的信息。在
- 合成数据是在算法上创建的,可以作为生产数据的测试数据集的替代
- Real data在合成数据生成中确实扮演了一个角色-取决于 现实你想要的输出
许可证
版权所有2020花旗集团
分布在Apache License, Version 2.0下。在
SPDX许可证标识符:Apache-2.0
- 项目
标签: