实例化时将SparkSession传递给自定义转换器

from pyspark import keyword_only from pyspark.ml import Transformer from pyspark.ml.param.shared import (HasInputCol, HasInputCols, HasOutputCol, HasOutputCols, Param) from pyspark.sql import (SparkSession, types, functions as funcs) spark = SparkSession.builder.appName('my_session').getOrCreate() # My Custom Transformer 1: class MyTransformerOne(Transformer, HasInputCol, HasOutputCol): @keyword_only def __init__(self, inputCol='my_input', outputCol='my_output'): super(MyTransformerOne, self).__init__() kwargs = self._input_kwargs self.setParams(**kwargs) @keyword_only def setParams(self, inputCol='my_input', outputCol='my_output'): kwargs = self._input_kwargs return self._set(**kwargs) def _transform(self, dataset): # I need a little dataframe here to perform some tasks: df = spark.createDataFrame( [ {'col1': 1, 'col2': 'A'}, {'col1': 2, 'col2': 'B'} ], schema = types.StructType([ types.StructField('col1', types.IntegerType(), True), types.StructField('col2', types.StringType(), True), ]) ) pass # Lots of other things happen here... the little dataframe above # is joined with the 'to be transformed' dataset and some columns # are calculated. return final_dataset df = MyTransformerOne().fit(input_df).transform(input_df) # This works Ok

""" my_transformers.py """ from pyspark import keyword_only from pyspark.ml import Transformer from pyspark.ml.param.shared import (HasInputCol, HasInputCols, HasOutputCol, HasOutputCols, Param) from pyspark.sql import (types, functions as funcs) class MyTransformerOne(Transformer, HasInputCol, HasOutputCol): @keyword_only def __init__(self, spark=None, inputCol='my_input', output_col='my_output'): super(MyTransformerOne, self).__init__() kwargs = self._input_kwargs self.setParams(**kwargs) @keyword_only def setParams(self, inputCol='my_input', outputCol='my_output'): kwargs = self._input_kwargs return self._set(**kwargs) def _transform(self, dataset): # Let's use the instance attribute to create the dataframe df = self.spark.createDataframe(...) # ... same as above

1条回答

网友

1楼 · 发布于 2024-09-30 02:30:20

结果比我想象的要容易！你知道吗

我发现了this answer：我可以在类中调用SparkSession.builder.getOrCreate()。一旦my_transformers模块被导入，每次我需要使用Spark会话时，我只需要将该行添加到我的方法中。你知道吗

所以，完整的代码是这样的：

from pyspark import keyword_only
from pyspark.ml import Transformer
from pyspark.ml.param.shared import (HasInputCol, HasInputCols, HasOutputCol, 
    HasOutputCols, Param)
from pyspark.sql import (SparkSession, types, functions as funcs)

# My Custom Transformer 1:
class MyTransformerOne(Transformer, HasInputCol, HasOutputCol):
    @keyword_only
    def __init__(self, inputCol='my_input', outputCol='my_output'):
        super(MyTransformerOne, self).__init__()
        kwargs = self._input_kwargs
        self.setParams(**kwargs)

    @keyword_only
    def setParams(self, inputCol='my_input', outputCol='my_output'):
        kwargs = self._input_kwargs
        return self._set(**kwargs)

    def _transform(self, dataset):
        # HERE! I get the active SparkSession.
        spark = SparkSession.builder.getOrCreate()

        # I need a little dataframe here to perform some tasks:
        df = spark.createDataFrame(
            [
                {'col1': 1, 'col2': 'A'}, {'col1': 2, 'col2': 'B'}
            ],
            schema = types.StructType([
                types.StructField('col1', types.IntegerType(), True),
                types.StructField('col2', types.StringType(), True),
            ])
        )
        pass # Lots of other things happen here... the little dataframe above
             # is joined with the 'to be transformed' dataset and some columns
             # are calculated.
        return final_dataset

df = MyTransformerOne().fit(input_df).transform(input_df)

我将把这个帖子留在这里，我将把我的问题标记为重复。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章