PySpark数据帧：如何用压缩代码过滤多个条件？

1条回答

网友

1楼 · 发布于 2024-09-28 16:20:52

您可以改为使用or_运算符：

from operator import or_
from functools import reduce

newdf = df.where(reduce(or_, (df[c] > 0 for c in df.columns)))

编辑：更多pythonista解决方案：

^{pr2}$

编辑2:完整示例：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0-SNAPSHOT
      /_/

Using Python version 3.5.1 (default, Dec  7 2015 11:16:01)
SparkSession available as 'spark'.

In [1]: from pyspark.sql.functions import lit

In [2]: %pas
%paste     %pastebin  

In [2]: %paste
def any_(*preds):
    cond = lit(False)
    for pred in preds:
        cond = cond | pred
    return cond

##   End pasted text  

In [3]: df = sc.parallelize([(1, 2, 3), (-1, -2, -3), (1, -1, 0)]).toDF()

In [4]: df.where(any_(*[df[c] > 0 for c in df.columns])).show()
# + -+ -+ -+
# | _1| _2| _3|
# + -+ -+ -+
# |  1|  2|  3|
# |  1| -1|  0|
# + -+ -+ -+

In [5]: df[any_(*[df[c] > 0 for c in df.columns])].show()
# + -+ -+ -+
# | _1| _2| _3|
# + -+ -+ -+
# |  1|  2|  3|
# |  1| -1|  0|
# + -+ -+ -+

In [6]: df.show()
# + -+ -+ -+
# | _1| _2| _3|
# + -+ -+ -+
# |  1|  2|  3|
# | -1| -2| -3|
# |  1| -1|  0|
# + -+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark数据帧：如何用压缩代码过滤多个条件？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >