为googledataproc请求合适的集群规范来处理我们的d

2024-10-05 10:38:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在努力为卡格尔的比赛处理一些大数据。你知道吗

要处理的数据量约为80Gb,有20亿行x 6列。你知道吗

数据被放在Google云存储中,并试图用googledatalab处理这个问题,但是由于数据太大,我们遇到了错误消息。你知道吗

所以我们尝试将Pyspark与googledataproc系统结合使用。你知道吗

关于这个我有两个问题:

1)此选项是否足够?你知道吗

  • 1个主节点实例:n1-highmem-4(vCPUs:4,RAM:26GB)

  • 10工作节点实例:n1-highmem-4(vCPUs:4,RAM:26GB)

2)是否需要Google计算引擎来处理Google Dataproc集群系统?如果是的话,在这种情况下哪一个是合适的?你知道吗

感谢您阅读本文,我将等待您的回答:)

谢谢!你知道吗


Tags: 数据实例消息节点系统错误googlepyspark
1条回答
网友
1楼 · 发布于 2024-10-05 10:38:15

因此,首先,我将尝试解决计算引擎vs Dataproc的问题,然后调整集群的大小。你知道吗

ComputeEngine是Google的IaaS产品,它基本上是一种为虚拟机加速的服务。googledataproc使用Google计算引擎来启动虚拟机,这些虚拟机将充当集群中的节点/主节点。此外,Dataproc已经在节点上安装和配置了一些东西,所以您不必处理它。如果需要更多关于节点的内容,可以使用Googlemaintains a set of scripts在集群上安装其他依赖项。所以,回答你的问题,你需要Google计算引擎,因为没有它,你就无法启动集群。而且,如果您已经准备好使用PySpark,那么Dataproc是正确的选择。你知道吗

至于大小,这实际上取决于您正在运行哪种分析,以及数据是否均匀分布。如果您有一个数据大于单个节点内存的热键/分片,则需要增加节点大小。如果计算是CPU密集型的,那么添加内核。GoogleDataProc的好处是,你可以在90秒内启动一个集群,然后在大约相同的时间内将其拆除。这应该给你的可能性,实验相当多!你知道吗

希望这有帮助!你知道吗

相关问题 更多 >

    热门问题