基于分隔符拆分字符串列，并为Pyspark中的每个值创建列

1条回答

网友

1楼 · 发布于 2024-09-28 01:28:33

对于Spark 2.4+，您可以将文件作为单个列读取，然后按|将其拆分。您将得到一个可以使用higher-order functions进行转换的数组列：

df.show(truncate=False)

+              +
|clm                         |
+              +
|a|b|c|clm4=1|clm5=3         |
|a|b|c|clm4=9|clm6=60|clm7=23|
+              +

我们使用transform函数将从clm列拆分得到的字符串数组转换为结构数组。每个结构都包含列名（如果存在）（检查字符串是否包含=）或将其命名为clm + (i+1)，其中i是其位置

transform_expr = """
transform(split(clm, '[|]'), (x, i) -> 
                   struct(
                         IF(x like '%=%', substring_index(x, '=', 1), concat('clm', i+1)), 
                         substring_index(x, '=', -1)
                         )
        )
"""

现在使用map_from_entries将数组转换为映射。最后，分解地图和轴以获得列

df.select("clm", 
          explode(map_from_entries(expr(transform_expr))).alias("col_name", "col_value")
         ) \
  .groupby("clm").pivot('col_name').agg(first('col_value')) \
  .drop("clm") \
  .show(truncate=False)

给出：

+  +  +  +  +  +  +  +
|clm1|clm2|clm3|clm4|clm5|clm6|clm7|
+  +  +  +  +  +  +  +
|a   |b   |c   |9   |null|60  |23  |
|a   |b   |c   |1   |3   |null|null|
+  +  +  +  +  +  +  +

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于分隔符拆分字符串列，并为Pyspark中的每个值创建列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >