如何在pyspark的列中查询“无”列表的值

1条回答

网友

1楼 · 发布于 2024-09-28 22:22:57

如果您使用的是Spark>；=2.4，您可以使用transform检查数组中是否有空元素，并对转换结果的array_max进行筛选

如果至少有一个null元素，则转换后的结果将至少有一个True，并且array_max的结果将是True。否则，所有元素都将返回False，因为它们都不是空的，array_max将返回False

df = spark.createDataFrame([[[None]], [[None, None]], [[None, 1]], [[1,1]]], 'symbol array<int>')

df.show()
+   +
|symbol|
+   +
|    []|
|   [,]|
| [, 1]|
|[1, 1]|
+   +

df.filter('array_max(transform(symbol, x -> x is null))').show()
+   +
|symbol|
+   +
|    []|
|   [,]|
| [, 1]|
+   +

对于较早的Spark版本，可以使用UDF：

import pyspark.sql.functions as F

has_null = F.udf(lambda arr: None in arr, 'boolean')

df.filter(has_null('symbol')).show()
+   +
|symbol|
+   +
|    []|
|   [,]|
| [, 1]|
+   +

如果要专门检查[]和[,]，可以使用：

df.filter('symbol in (array(null), array(null, null))').show()
+   +
|symbol|
+   +
|    []|
|   [,]|
+   +

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark的列中查询“无”列表的值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >