从AWS glue pythonshell作业内的有效负载检索s3路径

2024-05-03 22:16:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我在AWS glue中有一个pythonshell工作,需要从s3路径下载一个文件。此s3路径位置是一个变量,因此将作为start_run_job调用中的有效负载到达粘合作业,如下所示:

import boto3    
payload = {'s3_target_file':s3_TARGET_FILE_PATH,
            's3_test_file': s3_TEST_FILE_PATH}
    job_def = dict(
                JobName=MY_GLUE_PYTHONSHELL_JOB,
                Arguments=payload,
                WorkerType='Standard',
                NumberOfWorkers=2,
            )

response = glue.start_job_run(**job_def)

我的问题是,如何从通过boto3的AWS Glue pythonshell作业中的有效负载中检索这些s3路径?我们需要编写类似于AWS Lambda的处理程序吗?你知道吗

请建议。你知道吗


Tags: pathrun路径awss3def作业job
1条回答
网友
1楼 · 发布于 2024-05-03 22:16:16

检查docimentation。你只需要在这里。你知道吗

可以按如下方式使用getResolvedOptions

import sys
from awsglue.utils import getResolvedOptions

args = getResolvedOptions(sys.argv,
                          ['JOB_NAME',
                           'day_partition_key',
                           'hour_partition_key',
                           'day_partition_value',
                           'hour_partition_value'])
print "The day partition key is: ", args['day_partition_key']
print "and the day partition value is: ", args['day_partition_value']

相关问题 更多 >