检索datafram中列的唯一组合的任意行

1条回答

网友

1楼 · 发布于 2024-09-29 01:35:21

如果您想要一个任意行，可以尝试使用first或last，但这远远不够漂亮，我会认真考虑升级Spark：

from pyspark.sql.functions import col, first

df = sc.parallelize([
  (1, "desc1", "v1", "v3"), (2, "desc2", "v4", "v2"),
  (1, "desc1", "v4", "v2"), (2, "desc2", "v1", "v3")
]).toDF(["col1", "col2", "col3", "col4"])

keys = ["col1", "col2"]
values = ["col3", "col4"]
agg_exprs = [first(c).alias(c) for c in keys + ["vs_"]]
select_exprs = keys + [
    "vs_.col{0} AS {1}".format(i + 1, v) for (i, v) in enumerate(values)]

df_not_so_first = (df
  .selectExpr("struct({}) AS vs_".format(",".join(values)), *keys)
  .groupBy(*keys)
  .agg(*agg_exprs)
  .selectExpr(*select_exprs))

请注意，在这个特定的上下文中，first没有选择任何特定的行，并且结果可能不是确定性的。此外，根据Spark版本，可以单独安排单独的聚合。意思是

^{pr2}$

不保证col3和{}将从同一行中选择。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

检索datafram中列的唯一组合的任意行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >