SO的优秀员工
我需要通过不同的步骤来处理一组(庞大的)数据;每一步都可能涉及mapReduce(使用Disco)、通用分布式处理(使用Celery)或服务器上的一些简单处理。我正在寻找一个可以帮助管理这样一个工作流的工作流引擎/库/框架。在
我已经研究了许多选项,spiff workflow似乎是最灵活的,但它似乎不支持状态转换的操作,而且是单线程的(因此我不确定如何处理并行网关)。在
请就管理此类工作流程/工作的方法/工具提出建议。如果有一个框架附带了一个监控工具(最好是基于web或者可以与Pyramid集成)的框架,那就更好了。在
提前谢谢
Tags:
对于流水线批处理数据任务,我们使用基于great Spotify'sLuigi framework的解决方案。它的
central scheduler
调度和监视工具是基于Tornado的web服务器。在相关问题 更多 >
编程相关推荐