Spark SQL Row_number（）按排序Des分区

from pyspark import HiveContext from pyspark.sql.types import * from pyspark.sql import Row, functions as F from pyspark.sql.window import Window data_cooccur.select("driver", "also_item", "unit_count", F.rowNumber().over(Window.partitionBy("driver").orderBy("unit_count")).alias("rowNum")).show()

+------+---------+----------+------+ |driver|also_item|unit_count|rowNum| +------+---------+----------+------+ | s10| s11| 1| 1| | s10| s13| 1| 2| | s10| s17| 1| 3|

3条回答

网友

1楼 · 编辑于 2024-09-29 01:19:11

或者可以使用Spark SQL中的SQL代码：

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .master('local[*]')\
    .appName('Test')\
    .getOrCreate()

spark.sql("""
    select driver
        ,also_item
        ,unit_count
        ,ROW_NUMBER() OVER (PARTITION BY driver ORDER BY unit_count DESC) AS rowNum
    from data_cooccur
""").show()

网友

2楼 · 编辑于 2024-09-29 01:19:11

desc应应用于非窗口定义的列。可以对列使用以下任一方法：

from pyspark.sql.functions import col  

F.rowNumber().over(Window.partitionBy("driver").orderBy(col("unit_count").desc())

或独立功能：

from pyspark.sql.functions import desc

F.rowNumber().over(Window.partitionBy("driver").orderBy(desc("unit_count"))

网友

3楼 · 编辑于 2024-09-29 01:19:11

更新实际上，我试着对此进行了更多的研究，但似乎不起作用。（实际上它抛出了一个错误）。它不起作用的原因是我在Databricks中调用了display()中的代码（调用display()之后的代码永远不会运行）。似乎数据帧上的orderBy()和window上的orderBy()实际上并不相同。我会把这个答案保留下来只是为了否定的确认

~~从PySpark 2.4开始（可能更早），只需在orderBy调用中添加关键字ascending=False就可以了。~~

例如

personal_recos.withColumn("row_number", F.row_number().over(Window.partitionBy("COLLECTOR_NUMBER").orderBy("count", ascending=False)))

以及

personal_recos.withColumn("row_number", F.row_number().over(Window.partitionBy("COLLECTOR_NUMBER").orderBy(F.col("count").desc())))

似乎给了我同样的行为。

相关问题更多 >

编程相关推荐

热门问题

热门文章