使用LDA mod运行Sagemaker批处理转换时出错

# Initialize the transformer object transformer =sagemaker.transformer.Transformer( base_transform_job_name='Batch-Transform', model_name=model_name, instance_count=1, instance_type='ml.c4.xlarge', output_path=output_location, max_payload=20, strategy='MultiRecord' ) # Start a transform job transformer.transform(input_location, content_type='application/x-recordio-protobuf',split_type="RecordIO") # Then wait until the transform job has completed transformer.wait() # Fetch validation result s3_client.download_file(bucket, 'topic_model_batch_transform/output/batch_tansform_part0.pbr.out', 'batch_tansform-result') with open('batch_tansform-result') as f: results = f.readlines() print("Sample transform result: {}".format(results[0]))

2条回答

网友

1楼 · 编辑于 2024-07-02 13:07:40

我设法解决了这个问题，我使用的最大有效载荷似乎太高了。我设置了MaxPayloadInMB=1，现在它像一个梦一样运行

网友

2楼 · 编辑于 2024-07-02 13:07:40

虽然批处理转换平台支持灵活的有效负载限制（通过MaxPayloadInMB），但许多算法设置了更严格的内部限制。SageMaker内置的LDA算法就是这样，它根据内部配置拒绝“大”请求。在

您在日志中看到的错误正好说明了这一点：批处理转换客户机试图发送一个大小为20MB的请求，但LDA算法服务器拒绝了该请求，错误代码为413 (Request Entity Too Large)。在

使用SageMaker内置算法容器或任何非您自己的容器时，我们建议您在CreateTransformJob请求中保留参数MaxPayloadInMB未设置。这将提示平台选择算法的默认执行参数，您将看到这些参数打印在日志中，如下所示：

[sagemaker logs]: MaxConcurrentTransforms=1, MaxPayloadInMB=${DEFAULT_MAX_PAYLOAD_IN_MB}, BatchStrategy=MultiRecord

有关如何解析这些“执行参数”的详细信息，请参阅here文档中的“优先顺序”。在

除了控制有效负载大小外，您的其他转换作业参数选择（SplitType=RecordIO和BatchStrategy=MultiRecord）对于传递RecordIO Protobuf数据看起来是正确的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章