Pyspark同时从dataframe中的2个列表中删除

1条回答

网友

1楼 · 发布于 2024-07-05 15:19:09

df.show()#your dataframe
+                                     -+                                         +
|urls                                                                       |type                                                                              |
+                                     -+                                         +
|[url1, url2, url3, url4, url5, url6, url7, url8, url9, url10, url11, url12]|[adlink, picture, link, link, link, link, picture, link, link, link, link, adlink]|
+                                     -+                                         +

你可以使用higher order functions就像你使用spark2.4一样（因为你使用了array_remove，所以我能看出来）。首先，您可以使用arrays_zip将数组压缩到一起，然后使用filter上的zipped array(type_urls)将过滤掉任何type is 'adlink' and 'picture'，然后使用columname.arrayname从压缩的列中选择所需的列

Filter（高阶函数），基本上允许您对高阶数据应用过滤器，而无需对其进行分解（正如您提到的posexplode）。 Higher order functions

arrays_zip返回结构的合并数组，其中第N个结构包含输入数组的所有第N个值arrays_zip Pyspark API docs

from pyspark.sql import functions as F
df.withColumn("type_urls", F.arrays_zip(F.col("urls"),F.col("type"))).select("type_urls")\
  .withColumn("urls1", F.expr("""filter(type_urls, x-> x.type!='adlink' and x.type!='picture')"""))\
  .select(F.col("urls1.urls"), F.col("urls1.type")).show(truncate=False)

+                         +                        +
|urls                                              |type                                            |
+                         +                        +
|[url3, url4, url5, url6, url8, url9, url10, url11]|[link, link, link, link, link, link, link, link]|
+                         +                        +

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark同时从dataframe中的2个列表中删除

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >