一个建立在气流之上的ETL自以为是的框架
gust的Python项目详细描述
阵风
每一个任务的数据都是由一个数据流在一个数据流框架中建立起来的。查看gusty demo以获取使用gusty的完全对接数据管道的示例!在
结构
在气流DAGs中生成作业的.yml
方法并不是一个新的想法,但它是有用的,并且有一些内置的好处。在
- 在
Dependencies-可以通过以下三种方法之一在
.yml
文件中快速设置依赖项:- 使用
dependencies
规范,可以设置同一DAG中作业之间的依赖关系。在 - 使用
external_dependencies
规范,可以设置不同DAG中作业之间的依赖关系。在 - 对于
MaterializedPostgresOperator
,属于views
模式一部分的同一个DAG中的依赖项被自动注册。在
- 使用
- 在
Operator configuration-构建运算符后,可以在每个
在.yml
作业定义文件中向其传递参数。这意味着,例如,如果必须调用不同的API端点,则可能只需要构建一个运算符来从该API中摄取数据,然后可以在.yml
作业定义文件中指定要调用的端点。在 - 在
支持流行的笔记本格式-目前有两个notebook操作符,
在RmdOperator
和{},它们使您能够简单地编写RMarkdown或Jupyter笔记本文件,并将它们作为作业部署到数据管道中。更重要的是, RmdOperator
和{}实际上在单独的专用docker容器上执行,并通过SSH与气流容器交互,如果您想在云中单独部署这些服务,这非常有用!在
- 项目
标签: