在GCP上制作可扩展的postgres源机器学习管道

2024-06-03 01:35:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正试图在谷歌云平台上建立一个培训管道。虽然我可以在单个实例上进行训练,但数据可以扩展<;=1 TB。这就给我留下了一些选择,比如如何使用云平台来处理这个应用程序的培训管道。我正在考虑使用spark连接器连接Postgres,它可以读取数据,然后使用pandas或其他数据帧功能执行数据争用。这将输入深度学习/机器学习培训,然后输出模型。我曾读到类似气流/路易吉这样的东西可以帮助装载这样的管道。然而,在设计这个系统之前,我有一大堆问题想知道答案:

  • 当Spark连接到Postgres数据库时,它会将整个数据集下载到临时文件/Avro/Parquet文件中进行处理。我可以在这里使用最小内存吗?我如何确保这种情况发生
  • 谷歌云平台/AWS上是否有任何工具已经能够实现类似的功能?没有说明原因,我不想使用DataBricks
  • 我想使用大量的机器学习算法。一开始我想使用传统的回归方法,如套索等,随着时间的推移,我想开始使用更深入的学习技术,如CNN/RNN。我知道这是一个满载的问题,可能适合于它自己的堆栈溢出问题
  • 此体系结构是否存在任何可伸缩性问题

Tags: 数据实例lt功能机器应用程序pandas管道