从RDS MySQL模式并行连续提取数据

2024-05-20 15:27:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要从Amazon Aurora RDS实例中提取数据,并将其加载到S3,使其成为用于分析目的的数据湖。一个实例中有多个模式/数据库,每个模式都有一组类似的表。我需要并行地从这些表中提取所有模式的选择性列。这应该在定期实时捕获DML操作时发生

可能会出现使用AWS提供的数据迁移或复制活动等专用服务的问题。但我不能使用它们,因为计划是使解决方案云平台独立,因为它可以在Azure上托管

我原以为apachespark可以用于此,但我知道它不支持JDBC作为结构化流媒体的源代码。为此,我阅读了Python中的多线程和多处理技术,但必须评估它们是否合适(想法是以守护进程线程的形式运行代码,每个线程在后台从单个模式的表中获取数据,并以定义的周期(例如每5分钟)连续运行)。RDS表和S3之间的数据同步也是一个重要的考虑因素。p>

为了更详细地讨论源表中的数据,它们有一个自动递增ID字段,但不是连续的,并且由于相应实体(如客户)的不活动而删除了这些行,因此它们之间可能缺少一些数字。不需要拉取记录的全部数据,只需拉取配置中预定义的少数数据。解决方案必须是可靠的、可持续的和自动化的

现在,在决定使用哪种方法以及如何实现解决方案时,我非常困惑。因此,我寻求处理或了解此问题陈述的任何解决方案的人员的帮助。我很高兴提供更多信息,以防需要获得正确的解决方案。在此方面的任何帮助都将不胜感激


Tags: 数据实例目的aws数据库amazons3模式