在apacheai中运行sparksubmit需要帮助吗

from datetime import datetime, timedelta from airflow import DAG from airflow.contrib.operators.spark_submit_operator import SparkSubmitOperator from airflow.operators.bash_operator import BashOperator default_args = { 'owner': 'matthew', 'start_date': datetime(2019, 7, 8) } dag = DAG('CustomCreate_test2', default_args=default_args, schedule_interval=timedelta(days=1)) t3 = BashOperator( task_id='run_test', bash_command='spark-submit --class CLASSPATH.CustomCreate ~/IdeaProjects/custom-create-job/build/libs/custom-create.jar', dag=dag )

... [2019-08-28 15:54:49,749] {logging_mixin.py:95} INFO - [[34m2019-08-28 15:54:49,749[0m] {[34mspark_submit_hook.py:[0m427} INFO[0m - at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)[0m [2019-08-28 15:54:49,803] {taskinstance.py:1047} ERROR - Cannot execute: ['spark-submit', '--master', 'yarn', '--num-executors', '2', '--total-executor-cores', '1', '--executor-cores', '1', '--executor-memory', '2g', '--driver-memory', '1g', '--name', 'CustomCreate', '--class', 'CLASSPATH.CustomCreate', '--verbose', '--queue', 'root.default', '--deploy-mode', 'cluster', '~/IdeaProjects/custom-create-job/build/libs/custom-create.jar']. Error code is: 1. ...

2条回答

网友

1楼 · 编辑于 2024-09-30 01:21:59

类似的问题已经得到了回答- StackOverFlow Link

我想上面的链接会对你有所帮助。在

将来，如果您希望在AWS EMR或AZURE上实现相同的功能，那么您有一个很好的方法来安排spark作业-Airflow Documentation

以上示例-（AWS EMR）

 <airflow_EMR_task> =cover_open(json.load(open(airflow_home+'/<tasks_json_containing_all_spark_configurations>')))
 <airflow_EMR_task>['Job']['Name'] =  <airflow_EMR_task>['Job']['Name'] + <'optional_postfix'>
airflow_swperformance_cpu_creator = EmrRunJobFlowOperator(
    task_id='<task_id>',
    job_flow_overrides= <airflow_EMR_task>['Job'],
    aws_conn_id='aws_default',
    emr_conn_id='emr_default',
    retries=1,
    dag=dag
)

一个简单的JSON将是-（与上面提到的相同的JSON文件）

^{pr2}$

就这些了。在

网友

2楼 · 编辑于 2024-09-30 01:21:59

我找到了一个解决这个问题的方法。在

创建一个新的ssh连接（或编辑默认值），如下所示在AirflowAdmin->connection页面中 Airflow SSH Connection Example

如果您看不到图像，以下是文本版本
Conn ID：ssh\u连接
连接类型：SSH
主机：主机IP地址
用户名：主机用户名
密码：主机密码
端口：
Extra：{“key_file”：“/PATH TO HOME DIR/flow/.ssh/id_rsa”，“允许主机密钥更改”：“true”，“无主机密钥检查”：“true”}

然后对python脚本进行适当的调整

from airflow import DAG
from airflow.contrib.operators.ssh_operator import SSHOperator
from airflow.operators.bash_operator import BashOperator
from datetime import datetime, timedelta

default_args = {
    'owner': 'matthew',
    'start_date': datetime(2019, 8, 28)
}

dag = DAG('custom-create',
          default_args=default_args,
          schedule_interval=timedelta(days=1),
          params={'project_source': '~/IdeaProjects/custom-create-job',
                  'spark_submit': '/usr/local/bin/spark-submit',
                  'classpath': 'CLASSPATH.CustomCreate',
                  'jar_file': 'build/libs/custom-create.jar'}
          )

templated_bash_command = """
    echo 'HOSTNAME: $HOSTNAME' #To check that you are properly connected to the host
    cd {{ params.project_source }}
    {{ params.spark_submit }}  class {{ classpath }} {{ jar_file }}
"""

t1 = SSHOperator(
    task_id="SSH_task",
    ssh_conn_id='ssh_connection',
    command=templated_bash_command,
    dag=dag
)

我希望这个解决方案能帮助其他可能遇到类似问题的人。在

相关问题更多 >

编程相关推荐

热门问题

热门文章