用于分布式数据缩减的可组合直方图原语。
Histogrammar的Python项目详细描述
histogrammar是一组数据聚合原语,设计用于并行处理。在最简单的情况下,您可以使用它来计算直方图,但是原语的通用性允许更多。
有关完整的介绍,请参见http://histogrammar.org。
histogrammar的这个python实现遵循规范的1.0版,并且已经过测试以保证与scala实现的兼容性。测试套件包括空数据集、NaN/无穷大处理、关联性测试和万亿分之一级的数值一致性(双精度)。可以用一个方法调用在matplotlib、pyroot和bokeh中绘制几种常见的直方图类型。
如果numpy或pandas可用,则可以通过numpy命令从数组中快速填充直方图和其他聚合器10到100倍,而不是python for循环。
如果PyROOT可用,通过JIT编译一个专门的C++填充程序,可以更快地从根树中填充直方图和其他聚合器。
直方图和其他聚合器也可以转换为CUDA代码,以包含在GPU工作流中。如果pycuda可用,也可以通过jit编译cuda从numpy数组中填充它们。