在GCP上制作可扩展的postgres源机器学习管道

2024-06-03 01:35:33 发布

男 | 程序猿一只，喜欢编程写python代码。

我目前正试图在谷歌云平台上建立一个培训管道。虽然我可以在单个实例上进行训练，但数据可以扩展<；=1 TB。这就给我留下了一些选择，比如如何使用云平台来处理这个应用程序的培训管道。我正在考虑使用spark连接器连接Postgres，它可以读取数据，然后使用pandas或其他数据帧功能执行数据争用。这将输入深度学习/机器学习培训，然后输出模型。我曾读到类似气流/路易吉这样的东西可以帮助装载这样的管道。然而，在设计这个系统之前，我有一大堆问题想知道答案：

当Spark连接到Postgres数据库时，它会将整个数据集下载到临时文件/Avro/Parquet文件中进行处理。我可以在这里使用最小内存吗？我如何确保这种情况发生
谷歌云平台/AWS上是否有任何工具已经能够实现类似的功能？没有说明原因，我不想使用DataBricks
我想使用大量的机器学习算法。一开始我想使用传统的回归方法，如套索等，随着时间的推移，我想开始使用更深入的学习技术，如CNN/RNN。我知道这是一个满载的问题，可能适合于它自己的堆栈溢出问题
此体系结构是否存在任何可伸缩性问题

Tags：数据实例 lt 功能机器应用程序 pandas 管道

1条回答

网友

1楼 · 发布于 2024-06-03 01:35:33

对此，我的回答是使用了以下的一些方法：

请让我知道是否有任何关于此架构的反馈

在GCP上制作可扩展的postgres源机器学习管道

相关问题更多 >

编程相关推荐

热门问题

热门文章

在GCP上制作可扩展的postgres源机器学习管道

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >