Pyspark,我应该多久创建一次新的Spark会话?

2024-05-01 23:12:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个管道,看起来像类的一些方法。在每种方法中,我都处理一些数据。示例:

class Pipeline:

    def load_users(self):
        pass

    def load_sessions(self):
        pass

我应该用自定义配置在每个方法中初始化新的spark会话吗?或者最好初始化它的once-in__init__方法?你知道吗


Tags: 数据方法inself示例管道pipelinedef
1条回答
网友
1楼 · 发布于 2024-05-01 23:12:19

你可以先这样做一次,然后在执行各种操作/管道时更改Spark属性,使用spark.conf.set设置(“prop”,“val”)。大多数人都是这样做的,而且很少有相反的例子。你知道吗

如果你想有更好的洞察力,那就从大师那里:How many SparkSessions can a single application have?。这增加了一些见解,可以考虑与您的问题。问题是你是否真的需要考虑这个。你知道吗

相关问题 更多 >