用于气流的HDInsight provider

airflow-hdinsight的Python项目详细描述


气流hdinsight

Documentation StatusPyPi VersionSupported versionsPyPi downloads

一组气流挂钩、操作员和传感器,允许气流DAG与Azure HDInsight平台一起运行,用于群集创建和监视以及作业提交和监视。还包括一些增强的azureblob和datalake传感器。在

这个项目是对现有开源气流扩展的合并和增强,再加上新的扩展来解决这个问题。在

安装

pip install airflow-hdinsight

扩展

airflowhdi

TypeNameWhat it does
HookAzureHDInsightHookUses the HDInsightManagementClient from the HDInsight SDK for Python to expose several operations on an HDInsight cluster - get cluster state, create, delete.
OperatorAzureHDInsightCreateClusterOperatorUse the AzureHDInsightHook to create a cluster
OperatorAzureHDInsightDeleteClusterOperatorUse the AzureHDInsightHook to delete a cluster
OperatorConnectedAzureHDInsightCreateClusterOperatorExtends the AzureHDInsightCreateClusterOperator to allow fetching of the security credentials and cluster creation spec from an airflow connection
OperatorAzureHDInsightSshOperatorUses the AzureHDInsightHook and SSHHook to run an SSH command on the master node of the given HDInsight cluster
SensorAzureHDInsightClusterSensorA sensor to monitor the provisioning state or running state (can switch between either mode) of a given HDInsight cluster. Uses the AzureHDInsightHook.
SensorWasbWildcardPrefixSensorAn enhancement to the WasbPrefixSensor to support sensing on a wildcard prefix
SensorAzureDataLakeStorageGen1WebHdfsSensorUses airflow's AzureDataLakeHook to sense a glob path (which implicitly supports wildcards) on ADLS Gen 1. ADLS Gen 2 is not yet supported in airflow.

airflowlivy

^{tb2}$

HDinsight操作员工作的起源

HDInsight操作员的工作是松散的灵感来自alikemalocalan/airflow-hdinsight-operators,但是它有大量的缺陷,为什么它是never accepted首先进入气流。这个项目解决了所有这些问题和更多的问题,坦率地说,这是一个完整的重写。在

利维作品的起源

livy批处理操作符基于panovvv的项目airfllow-livy-operators的工作。它做了一些必要的改变:

  • 将操作员分为挂钩(LivyBatchHook)、操作员(LivyBatchOperator)和传感器(LivyBatchSensor)
  • 向传感器添加额外的验证和日志溢出(原始传感器没有)
  • 从操作符中移除额外的验证和日志溢出-因此所有的异步模式都类似于EMR add step operator和step sensor。在
  • 从Azure HDInsight连接动态创建livy、spark和YARN气流连接
  • 从操作员返回批处理ID,以便传感器在通过XCom后可以使用它
  • 将日志记录更改为LoggingMixin调用
  • 允许字段的模板化

State of flow livy operators在野外。

从今天(2020年6月)的情况来看,有多个airflow livy运营商项目:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
http POST请求Java CouchDB   java删除带有大量尾随0的浮点字符串上的科学符号   JavaEE5和Hibernate   java如何在Spring Social中获得比特定id更早的tweet   java是框架。revalidate()在事件后获取输出是否重要?   java为什么不能返回通用映射?   java如何理解和优化工厂方法的高自时间   java Eclipse 202006错误由于项目的生成路径不完整,因此未生成该项目   多线程是java。util。向量序列化线程安全?   在Eclipse和java中使用不同的构建配置。属性文件   编译Java:从命令行运行的问题   java如何知道消息是否已确认/取消?   Java铸造一套   java Android Seekbar progress已更改变量,给出错误