用于大数据场景的pycompss库。
ddf-pycompss的Python项目详细描述
- 分布式数据帧库提供分布式算法和操作,可作为通过pycompss编程模型实现的库使用。目前,它高度关注etl(extract-
转换负载)和机器学习算法到数据科学任务。DDF的灵感来自Spark的数据帧和它的运营商。
目前,一个操作可以是两种类型,转换或操作。操作操作是产生最终结果的操作(是保存到文件还是显示在屏幕上)。转变 操作是将一个输入ddf转换为另一个输出ddf的操作。除此分类外,还有一个处理阶段和两个或多个处理阶段的操作(即 需要在分区之间交换信息)。
当运行ddf操作/算法时,上下文变量(compss context)将在comps任务调度期间检查优化的可能性。这些优化可以是以下类型:分组一 将操作转移到单个任务compss和stacking操作,直到找到操作操作为止。