用于气流的HDInsight provider
airflow-hdinsight的Python项目详细描述
气流hdinsight
一组气流挂钩、操作员和传感器,允许气流DAG与Azure HDInsight平台一起运行,用于群集创建和监视以及作业提交和监视。还包括一些增强的azureblob和datalake传感器。在
这个项目是对现有开源气流扩展的合并和增强,再加上新的扩展来解决这个问题。在
安装
pip install airflow-hdinsight
扩展
airflowhdi
Type | Name | What it does |
---|---|---|
Hook | AzureHDInsightHook | Uses the HDInsightManagementClient from the HDInsight SDK for Python to expose several operations on an HDInsight cluster - get cluster state, create, delete. |
Operator | AzureHDInsightCreateClusterOperator | Use the AzureHDInsightHook to create a cluster |
Operator | AzureHDInsightDeleteClusterOperator | Use the AzureHDInsightHook to delete a cluster |
Operator | ConnectedAzureHDInsightCreateClusterOperator | Extends the AzureHDInsightCreateClusterOperator to allow fetching of the security credentials and cluster creation spec from an airflow connection |
Operator | AzureHDInsightSshOperator | Uses the AzureHDInsightHook and SSHHook to run an SSH command on the master node of the given HDInsight cluster |
Sensor | AzureHDInsightClusterSensor | A sensor to monitor the provisioning state or running state (can switch between either mode) of a given HDInsight cluster. Uses the AzureHDInsightHook. |
Sensor | WasbWildcardPrefixSensor | An enhancement to the WasbPrefixSensor to support sensing on a wildcard prefix |
Sensor | AzureDataLakeStorageGen1WebHdfsSensor | Uses airflow's AzureDataLakeHook to sense a glob path (which implicitly supports wildcards) on ADLS Gen 1. ADLS Gen 2 is not yet supported in airflow. |
airflowlivy
HDinsight操作员工作的起源
HDInsight操作员的工作是松散的灵感来自alikemalocalan/airflow-hdinsight-operators,但是它有大量的缺陷,为什么它是never accepted首先进入气流。这个项目解决了所有这些问题和更多的问题,坦率地说,这是一个完整的重写。在
利维作品的起源
livy批处理操作符基于panovvv的项目airfllow-livy-operators的工作。它做了一些必要的改变:
- 将操作员分为挂钩(LivyBatchHook)、操作员(LivyBatchOperator)和传感器(LivyBatchSensor)
- 向传感器添加额外的验证和日志溢出(原始传感器没有)
- 从操作符中移除额外的验证和日志溢出-因此所有的异步模式都类似于EMR add step operator和step sensor。在
- 从Azure HDInsight连接动态创建livy、spark和YARN气流连接
- 从操作员返回批处理ID,以便传感器在通过XCom后可以使用它
- 将日志记录更改为LoggingMixin调用
- 允许字段的模板化
State of flow livy operators在野外。
从今天(2020年6月)的情况来看,有多个airflow livy运营商项目:
- panovvv/airflow-livy-operators:此项目基于的项目
- {1.0气流管理器没有其他的限制,它没有一个正式的气流管理器的功能^-1,它的工作没有其他的限制^-1和气流管理器}的其他功能
- rssanders3/airflow-spark-operator-plugin:这是最古老的livy操作符,它只支持livy会话,不支持批处理。在alikemalocalan/airflow-hdinsight-operators里有一份副本。在
- 项目
标签: