将S3处的CSV列数据与红移表列数据匹配

2024-09-21 03:18:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我还是AWS生态系统的新手,在AWS的某些组件上进行POC。我必须将CSVs数据与红移表数据进行匹配-列对列匹配。有谁能告诉我在哪里我可以得到一个如何执行上面的想法。提前谢谢


Tags: 数据aws组件csvspoc新手移表
2条回答

一种方法是

  1. 创建粘合目录(无成本)
  2. 使用红移查询编辑器创建外部表(仍然没有成本,也不需要运行爬虫程序)
  3. 现在您将数据作为一个表
  4. 比较红移集群中的表和扩展表

将产生的唯一成本是在运行查询时扫描数据,这相当于每TB 5美元

为了完成它,您可以执行两个主要步骤

  1. 使用AWS胶水服务检查数据。您可以创建一个爬虫程序,使S3中的数据可查询Glue Crawler
  2. 使用红移频谱直接从红移Redshift Spectrum查询S3上的csv数据

根据您的用例,还有其他有用的链接。例如,如果您的csv数据没有标题,您可以将分类器添加到爬虫程序以添加它们(您的数据不会被修改)Crawler Classifier

如果不想使用Glue之类的服务,可以使用COPY命令 内部红移COPY。这样,您将在数据库中创建一个适当的表

相关问题 更多 >

    热门问题