没有项目描述
Trough的Python项目详细描述
槽
大数据,小数据库。
大数据其实就是一堆又一堆的小数据。
如果您将一个大数据集拆分为许多小的sql数据库,这些数据库被切分在一个精心选择的键上, 它们可以协同工作,创建一个可以查询非常大的数据集的数据库系统。
最坏情况下的性能是重要的
使用大型数据集时的一个关键洞察是,使用单片大数据工具的性能 很大程度上依赖于完整的数据集在 生产质量集群。
槽的设计具有非常可预测的性能特点:只需确定切分键, 确定最大的碎片,在本地将其加载到sqlite数据库中,您已经知道最坏的情况 性能场景。
旨在利用存储,而不是ram
而不是有巨大的CPU和内存需求来在大型数据集上提供性能查询, 槽依赖于平面的sqlite文件,这些文件很容易分发到集群并进行查询。
可靠部件,可靠整体
堆栈中的每一项技术都经过精心选择和负载测试,以确保数据保持不变 可靠的向上和可靠的可查询性。代码足够小,一个程序员可以审核。
易于安装
建立一个大数据系统最糟糕的部分通常是设置合理的默认值和 将其部署到登台和生产环境中。槽的设计要求 尽可能配置。
Ansible部署规范示例已从槽中删除 回购,但可以在https://github.com/internetarchive/trough/tree/cc32d3771a7/ansible找到。 它是为集群ubuntu 16.04xenial节点设计的。