将BigQuery数据传输到AmazonS3存储桶

2024-09-28 23:16:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我在大查询中存储了一个模式,我需要将其传输到AmazonS3存储桶中。这个过程是什么?。。BigQuery数据来自其他愿意给予适当访问权以传输数据的组织。我找到了从s3 bucket导入到gcp的方法,但是没有办法直接从大查询导出到s3。我真的被这部分卡住了。此外,我还需要安排这个过程,因为bigquery中的数据在不断变化,我每天都希望将数据保存到s3存储桶中。请提及这方面的参考资料。请注意,每天的数据将以TBs为单位


Tags: 数据方法s3bucket过程模式单位bigquery
1条回答
网友
1楼 · 发布于 2024-09-28 23:16:42

顺便说一句,没有直接到s3管道的bigquery,但解决办法是先到Google云存储,然后再到s3

  1. 第一步是在计划作业的机器上setup gcloud sdk

  2. 配置gcloud并特别注意boto configuration如果进程将在EC2上运行,并且附加了一个允许它写入S3的角色,则可以跳过此步骤(这也是比使用密钥更好的安全实践)

  3. 将数据从bigquery复制到gcs

     bq  location=US extract  destination_format AVRO  compression SNAPPY [source_table] [target location on gcs]
    
  4. 将文件从gcs复制到s3

     gsutil rsync -r [target location on gcs] to [target location on s3]
    

注意:这个过程对于GA360数据很好,因为它已经按天进行了分区,但如果不是这样,并且您不能分离表,那么您可以schedule a query on GCP使用增量逻辑创建表,该表将用作[源表]

相关问题 更多 >