pyspark:dataframe上的avro反序列化函数按预期失败

spark = SparkSession \ .builder \ .... .enableHiveSupport() \ .getOrCreate() df = spark.sql("SELECT * FROM table1") unbase_df = df.select(unbase64(df.mycolumn1)) client = SchemaRegistryClient(url='1.2.3.4:1234') serializer = MessageSerializer(client) ##attempt 1##FAILS## decode_df = df.select(serializer.decode_message('mycolumn1')) ###->ERROR -> ##attempt 2##FAILS## decode_df_2 = df.select(serializer.decode_message(b'mycolumn1')) ##attempt 3##WORKS BUT OOM with high volume on master(drivermanager)## unbase_collect = unbase_df.collect() decode_list = [serializer.decode_message(msg.mycolumn1) for msg in unbase_collect] ##attempt 4##WORKS BUT RUNS FOR EVER## def avrodecoder(row): decoded_row = serializer.decode_message(row['mycolumn1']) return decoded_row decode_rdd = unbase_df.select("*").rdd.map(avrodecoder) ## After #3 or #4 works I convert back to dataframe with schema schema = StructType([ StructField("1column", StructType([ ....... StructField("ncolumn", StringType()]) decode_df = spark.createDataFrame(decode_rdd,schema)

in decode_message(self, message) 185 raise SerializerError("message is too small to decode") 186 --> 187 with ContextBytesIO(message) as payload: 188 magic, schema_id = struct.unpack('>bI', payload.read(5)) 189 if magic != MAGIC_BYTE: TypeError: a bytes-like object is required, not 'str'``` Error message in case of #attempt 2 ```.....python3.6/site-packages/datamountaineer/schemaregistry/serializers/MessageSerializer.py in decode_message(self, message) 188 magic, schema_id = struct.unpack('>bI', payload.read(5)) 189 if magic != MAGIC_BYTE: --> 190 raise SerializerError("message does not start with magic byte") 191 decoder_func = self._get_decoder_func(schema_id, payload) 192 return decoder_func(payload) SerializerError: the message does not start with a magic byte ```

1条回答

网友

1楼 · 发布于 2024-05-18 08:44:08

在Column上应用普通Python函数之前，必须将其转换为用户定义的函数（UDF）：

from pyspark.sql.functions import udf

@udf(decoded_row_schema)
def avrodecoder(row):
    decoded_row = serializer.decode_message(row['mycolumn1'])
    return decoded_row

其中decoded_row_schema描述返回对象的形状。你知道吗

但是，如果您使用的是当前的（>；=2.4.0）版本，则可能根本不需要这样做-Pyspark 2.4.0, read avro from kafka with read stream - Python

相关问题更多 >

编程相关推荐

热门问题

热门文章