java如何在Spark中排序数据帧而不使用Spark SQL? 1 周,6 日 Questions & Answers 1676 我现在正在使用Spark,但我发现在Spark SQL中使用ORDER BY对数据帧进行排序非常慢。那么,如何在没有Spark SQL的情况下对数据帧进行排序呢
# 1 楼答案 我不确定我是否完全理解你需要什么 无论如何,如果你想对DF进行排序,你可以使用sortBy(或者在(K,V)的情况下使用sortByKey) 例如,如果我们假设有一个DF(在本例中来自Spark SQL),我们可以将其排序如下: val sqlResult = sqlContext.sql("select first_column, second_column from logs").toDF() val result = sqlResult.sortBy(x=>x._1) // first column sorting 如前所述,您可以对任何DF进行排序,但我只想展示另一种使用Spark SQL“访问”数据的方法,然后使用Spark核心功能对其进行排序 希望能有帮助 FF
# 1 楼答案
我不确定我是否完全理解你需要什么
无论如何,如果你想对DF进行排序,你可以使用sortBy(或者在(K,V)的情况下使用sortByKey)
例如,如果我们假设有一个DF(在本例中来自Spark SQL),我们可以将其排序如下:
如前所述,您可以对任何DF进行排序,但我只想展示另一种使用Spark SQL“访问”数据的方法,然后使用Spark核心功能对其进行排序
希望能有帮助
FF