我有一个pyspark数据框架,它由一列和十行组成。我删除了上面代码中的其他列。 这就是它看起来的样子:
+--------------------+
| movieTitle|
+--------------------+
|Across the Sea of...|
|Dog of Flanders, ...|
| Bootmen (2000)|
|Relax... It's Jus...|
|Mating Habits of ...|
| Belly (1998)|
| Taffin (1988)|
|Love and Other Ca...|
|Shattered Image (...|
|Price Above Rubie...|
+--------------------+
我需要打印出带有索引的前5行。格式如下:
Movies recommended for you:
1: Silence of the Lambs, The (1991)
2: Saving Private Ryan (1998)
3: Godfather, The (1972)
4: Star Wars: Episode 6 - A New Hope (1977)
5: Shawshank Redemption, The (1994)
它不一定是那些精确的电影,只是那种格式。我尝试将其更改为RDD和pandas数据帧,并对其进行迭代,但两者都出现了错误。有什么简单的方法可以做到这一点吗
提前谢谢
您可以使用
collect()
在movieTitle
列中创建一个值列表,然后简单地对其进行迭代:输出:
如果要向pyspark数据帧添加索引,可以使用
row_number
。(我使用的是一个没有分区的窗口,对于您的数据来说应该可以)相关问题 更多 >
编程相关推荐