此软件包提供对eScience中央数据仓库的访问,该数据仓库可用于存储、访问和分析科学研究中收集的数据,包括用于医疗保健应用的数据
data-warehouse-client的Python项目详细描述
数据仓库客户端
该软件包提供对电子科学中心数据仓库的访问,该数据仓库可用于存储、访问和分析 在科学研究中收集的数据,包括用于医疗保健的数据。仓库的主要目的 是为了创建一个通用系统,使用户能够探索以各种形式收集的数据。可能包括 通过问卷调查收集的数据,从传感器收集的数据, 以及从传感器数据分析中提取的特征(例如,从原始加速计数据中得出的活动水平)。 研究人员可能希望以不同的方式对这些数据进行切片、切分、可视化、分析和探索, e、 g.一名参与者的所有结果, 研究中一种测量方法的所有结果, 测量值随时间的变化。其他人可能希望构建可以在应用程序中使用的模型 对未来价值做出预测。在
传统上,研究中收集的数据存储在一组文件中,
通常在文件名中编码元数据。
这使得研究人员很难探索、解释和分析数据。
数据仓库利用现代数据库技术大大简化了这项工作。
在这方面,我们大量借鉴了数据仓库设计的最佳实践。
然而,要存储的医疗保健数据的类型比典型的仓库中的要多,
因此,我们不得不在设计的某些方面偏离传统的数据仓库。
设计背后有三个指导原则:
- 数据仓库必须能够存储在研究中收集的任何类型的数据,而无需修改模式。 这意味着当研究中收集到新类型的数据时(例如,从新的调查问卷中, 一个新的数据分析程序,或者一个新的传感器),它们可以存储在仓库中,而不需要对其设计进行任何更改。 这有3个主要优点: 首先,它使我们能够修复和优化存储数据的表的模式; 其次,它意味着应用程序和工具(例如用于分析和可视化) 当添加新类型的数据时,不必更新基于仓库的构建; 第三,一个单一的、多租户的数据库服务器可以支持许多研究。 这降低了总体成本、新研究的启动时间以及管理仓库的管理费用。在
- 关于测量类型的描述性信息存储在仓库中,以便工具或人员 可以解释存储在那里的数据。在
- 该设计针对查询性能进行了优化。在一些情况下,这导致了非规范化 (数据复制)以减少对昂贵连接的需要。在
- 它必须支持一个安全机制来限制每个用户的访问 研究中收集的数据。在
运行说明书
要从PyPi安装,请运行:
pip安装数据仓库客户端
在运行可执行文件的目录中,创建一个包含数据库的db-credentials.json
文件
凭据(全部替换<VARS>
):
{"user": "<USER>", "pass": "<PASSWORD>", "IP": "<IP>", "port": <PORT>}
- 项目
标签: