从RDS MySQL模式并行连续提取数据

2024-05-20 15:27:55 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要从Amazon Aurora RDS实例中提取数据，并将其加载到S3，使其成为用于分析目的的数据湖。一个实例中有多个模式/数据库，每个模式都有一组类似的表。我需要并行地从这些表中提取所有模式的选择性列。这应该在定期实时捕获DML操作时发生

可能会出现使用AWS提供的数据迁移或复制活动等专用服务的问题。但我不能使用它们，因为计划是使解决方案云平台独立，因为它可以在Azure上托管

我原以为apachespark可以用于此，但我知道它不支持JDBC作为结构化流媒体的源代码。为此，我阅读了Python中的多线程和多处理技术，但必须评估它们是否合适（想法是以守护进程线程的形式运行代码，每个线程在后台从单个模式的表中获取数据，并以定义的周期（例如每5分钟）连续运行）。RDS表和S3之间的数据同步也是一个重要的考虑因素。p>

为了更详细地讨论源表中的数据，它们有一个自动递增ID字段，但不是连续的，并且由于相应实体（如客户）的不活动而删除了这些行，因此它们之间可能缺少一些数字。不需要拉取记录的全部数据，只需拉取配置中预定义的少数数据。解决方案必须是可靠的、可持续的和自动化的

现在，在决定使用哪种方法以及如何实现解决方案时，我非常困惑。因此，我寻求处理或了解此问题陈述的任何解决方案的人员的帮助。我很高兴提供更多信息，以防需要获得正确的解决方案。在此方面的任何帮助都将不胜感激

Tags：数据实例目的 aws 数据库 amazon s3 模式

0条回答

目前没有回答

从RDS MySQL模式并行连续提取数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

从RDS MySQL模式并行连续提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >