Databricks Pypark使用动态键处理嵌套json

{ "Header": { "Code1": "abc", "Code2": "def", "Code3": "ghi", "Code4": "jkl", }, "TimeSeries": { "2020-11-25T03:00:00+00:00": { "UnitPrice": 1000, "Amount": 10000, }, "2020-11-26T03:00:00+00:00": { "UnitPrice": 1000, "Amount": 10000, } } }

def flatten_json(data): columnlist = data.select("TimeSeries.*") count = 0 for name in data.select("TimeSeries.*"): df1 = data.select("Header.*").withColumn(("Timeseries"), lit(columnlist.columns[count])).withColumn("join", lit("a")) df2 = data.select("TimeSeries." + columnlist.columns[count] + ".*").withColumn("join", lit("a")) if count == 0: df3 = df1.join(df2, on=['join'], how="inner") else: df3 = df3.union(df1.join(df2, on=['join'], how="inner")) count = count + 1 return(df3)

1条回答

网友

1楼 · 发布于 2024-09-29 00:14:34

这个想法：

步骤1：分别提取头和时间序列
步骤2：对于TimeSeries对象中的每个字段，提取Amount和UnitPrice，连同字段的name，将它们填充到一个结构中
步骤3：将所有这些结构合并到一个数组列中，并分解它
步骤4：从分解的列中提取Timeseries、Amount和UnitPrice
步骤5：与标题行交叉连接

import pyspark.sql.functions as F

header_df = df.select("Header.*")
timeseries_df = df.select("TimeSeries.*")
fieldNames = enumerate(timeseries_df.schema.fieldNames())
cols = [F.struct(F.lit(name).alias("Timeseries"), col(name).getItem("Amount").alias("Amount"), col(name).getItem("UnitPrice").alias("UnitPrice")).alias("ts_" + str(idx)) for idx, name in fieldNames]
combined = explode(array(cols)).alias("comb")
timeseries = timeseries_df.select(combined).select('comb.Timeseries', 'comb.Amount', 'comb.UnitPrice')
result = header_df.crossJoin(timeseries)
result.show(truncate = False)

输出：

+  -+  -+  -+  -+            -+   +    -+
|Code1|Code2|Code3|Code4|Timeseries               |Amount|UnitPrice|
+  -+  -+  -+  -+            -+   +    -+
|abc  |def  |ghi  |jkl  |2020-11-25T03:00:00+00:00|10000 |1000     |
|abc  |def  |ghi  |jkl  |2020-11-26T03:00:00+00:00|10000 |1000     |
+  -+  -+  -+  -+            -+   +    -+

相关问题更多 >

编程相关推荐

热门问题

热门文章