2024-09-28 23:16:42 发布
网友
我在大查询中存储了一个模式,我需要将其传输到AmazonS3存储桶中。这个过程是什么?。。BigQuery数据来自其他愿意给予适当访问权以传输数据的组织。我找到了从s3 bucket导入到gcp的方法,但是没有办法直接从大查询导出到s3。我真的被这部分卡住了。此外,我还需要安排这个过程,因为bigquery中的数据在不断变化,我每天都希望将数据保存到s3存储桶中。请提及这方面的参考资料。请注意,每天的数据将以TBs为单位
顺便说一句,没有直接到s3管道的bigquery,但解决办法是先到Google云存储,然后再到s3
第一步是在计划作业的机器上setup gcloud sdk
配置gcloud并特别注意boto configuration如果进程将在EC2上运行,并且附加了一个允许它写入S3的角色,则可以跳过此步骤(这也是比使用密钥更好的安全实践)
将数据从bigquery复制到gcs
bq location=US extract destination_format AVRO compression SNAPPY [source_table] [target location on gcs]
将文件从gcs复制到s3
gsutil rsync -r [target location on gcs] to [target location on s3]
注意:这个过程对于GA360数据很好,因为它已经按天进行了分区,但如果不是这样,并且您不能分离表,那么您可以schedule a query on GCP使用增量逻辑创建表,该表将用作[源表]
顺便说一句,没有直接到s3管道的bigquery,但解决办法是先到Google云存储,然后再到s3
第一步是在计划作业的机器上setup gcloud sdk
配置gcloud并特别注意boto configuration如果进程将在EC2上运行,并且附加了一个允许它写入S3的角色,则可以跳过此步骤(这也是比使用密钥更好的安全实践)
将数据从bigquery复制到gcs
将文件从gcs复制到s3
注意:这个过程对于GA360数据很好,因为它已经按天进行了分区,但如果不是这样,并且您不能分离表,那么您可以schedule a query on GCP使用增量逻辑创建表,该表将用作[源表]
相关问题 更多 >
编程相关推荐