为googledataproc请求合适的集群规范来处理我们的d

1条回答

网友

1楼 · 发布于 2024-10-05 10:38:15

因此，首先，我将尝试解决计算引擎vs Dataproc的问题，然后调整集群的大小。你知道吗

ComputeEngine是Google的IaaS产品，它基本上是一种为虚拟机加速的服务。googledataproc使用Google计算引擎来启动虚拟机，这些虚拟机将充当集群中的节点/主节点。此外，Dataproc已经在节点上安装和配置了一些东西，所以您不必处理它。如果需要更多关于节点的内容，可以使用Googlemaintains a set of scripts在集群上安装其他依赖项。所以，回答你的问题，你需要Google计算引擎，因为没有它，你就无法启动集群。而且，如果您已经准备好使用PySpark，那么Dataproc是正确的选择。你知道吗

至于大小，这实际上取决于您正在运行哪种分析，以及数据是否均匀分布。如果您有一个数据大于单个节点内存的热键/分片，则需要增加节点大小。如果计算是CPU密集型的，那么添加内核。GoogleDataProc的好处是，你可以在90秒内启动一个集群，然后在大约相同的时间内将其拆除。这应该给你的可能性，实验相当多！你知道吗

希望这有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章