PySpark在每个数据帧行上执行普通Python函数

col1 | col2 | col3 | ... | colN | tags -------------------------------------- v11 | v12 | v13 | ... | v1N | [func1, func76, funcN] v21 | v22 | v23 | ... | v2N | [func32] ... | ... | ... | ... | ... | [..., ..., ..., ..., ...]

1条回答

网友

1楼 · 发布于 2024-09-29 17:44:29

可以使用SQL表达式实现这一点，SQL表达式可以使用^{}进行计算。但是，由于SQL表达式不能作为列值进行计算（请参见此post），您将无法连接这两个数据帧，因此您必须将函数收集到一个列表中（因为您只有数百行，它可以放在内存中）

以下是一个工作示例，您可以根据自己的需求进行调整：

data1 = [(1, "val1", 4, 5, "A", 10), (0, "val2", 7, 8, "B", 20),
         (9, "val3", 8, 1, "C", 30), (10, "val4", 2, 9, "D", 30),
         (20, "val5", 6, 5, "E", 50), (3, "val6", 100, 2, "X", 45)]

df1 = spark.createDataFrame(data1, ["col1", "col2", "col3", "col4", "col5", "col6"])

data2 = [("func1", "col1 + col3 = 5 and col2 like '%al1'"),
         ("func2", "col6 = 30 or col1 * col4 > 20"),
         ("func3", "col5 in ('A', 'B', 'C') and col6 - col1 < 30"),
         ("func4", "col2 like 'val%' and col1 > 0")]

df2 = spark.createDataFrame(data2, ["func_name", "func_body"])

# get functions into a list
functions = df2.collect()

# case/when expression to evaluate the functions
satisfied_expr = [when(expr(f.func_body), lit(f.func_name)) for f in functions]

# add new column tags
df1.withColumn("tags", array(*satisfied_expr)) \
    .withColumn("tags", expr("filter(tags, x -> x is not null)")) \
    .show(truncate=False)

在添加数组列tags之后，使用^{}函数删除对应于未满足表达式的空值。此功能仅从Spark 2.4+开始提供，对于旧版本，您必须使用和UDF

给出：

+  +  +  +  +  +  +          -+
|col1|col2|col3|col4|col5|col6|tags                 |
+  +  +  +  +  +  +          -+
|1   |val1|4   |5   |A   |10  |[func1, func3, func4]|
|0   |val2|7   |8   |B   |20  |[func3]              |
|9   |val3|8   |1   |C   |30  |[func2, func3, func4]|
|10  |val4|2   |9   |D   |30  |[func2, func4]       |
|20  |val5|6   |5   |E   |50  |[func2, func4]       |
|3   |val6|100 |2   |X   |45  |[func4]              |
+  +  +  +  +  +  +          -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark在每个数据帧行上执行普通Python函数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >