如何循环PySpark数据帧并打印前5次迭代？

1条回答

网友

1楼 · 发布于 2024-10-03 23:29:05

您可以使用collect()在movieTitle列中创建一个值列表，然后简单地对其进行迭代：

movies_list = df.select("movieTitle").collect()

n = 5
for i in range(n):
    print(str("%s: %s" % (i+1,movies_list[i][0])))

输出：

1: Silence of the Lambs, The (1991)
2: Saving Private Ryan (1998)
3: Godfather, The (1972)
4: Star Wars: Episode 6 - A New Hope (1977)
5: Shawshank Redemption, The (1994)

如果要向pyspark数据帧添加索引，可以使用row_number。（我使用的是一个没有分区的窗口，对于您的数据来说应该可以）

from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, col, concat, lit

w = Window().orderBy("movieTitle")
df = df.withColumn("row_num", row_number().over(w)).withColumn("movieTitle",\
         concat(col("row_num"), lit(": "), col("movieTitle"))).drop('row_num')

movies_list = df.select("movieTitle").collect()

n = 5
for i in range(n):
    print(movies_list[i][0])

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何循环PySpark数据帧并打印前5次迭代？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >