基于字符串列表筛选pyspark数据帧

网友

1楼 · 编辑于 2024-09-23 06:30:50

要从列表中查找包含一个字符串的所有行，可以使用方法^{}。例如：

+     +
|     value|
+     +
|      text|
|text testA|
|text testB|
|text testC|
|      text|
+     +

listStr=["testA","testB","testC"]
lines.filter(F.col('value').rlike('|'.join(listStr))).show()

输出：

+     +
|     value|
+     +
|text testA|
|text testB|
|text testC|
+     +

您的解决方案不起作用，因为方法^{}测试单元格值是否等于列表中的一个值。您只能对列对象（在PySpark 3中）使用此方法，否则将得到AttributeError。它将适用于以下数据帧：

+  -+
|value|
+  -+
| text|
|testA|
|testB|
|testC|
| text|
+  -+

listStr=["testA","testB","testC"]
lines.filter(F.col('value').isin(*listStr)).show()

输出：

+  -+
|value|
+  -+
|testA|
|testB|
|testC|
+  -+

网友

2楼 · 编辑于 2024-09-23 06:30:50

您还可以使用like：

from functools import reduce

df.filter(
    reduce(lambda a, b: a | b, [F.col("value").like(f"%{word}%") for word in listStr])
).count()

网友

3楼 · 编辑于 2024-09-23 06:30:50

如果要使用lambda函数，可以使用RDD：

lines.rdd.filter(lambda r: any(s in r[0] for s in listStr)).count()

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于字符串列表筛选pyspark数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >