pyspark如何像scala.drop那样删除rdd列

2024-10-01 13:27:37 发布

男 | 程序猿一只，喜欢编程写python代码。

文件视频.csv如下所示

2482cal-2792-48da,Action,Comedy 
099acca-8888-48ca,Action,Comedy

在Spark Scala中，可以使用.drop(1)删除RDD列1，以删除所有行的RDD列1，例如482cal-2792-48da和099acca-8888-48ca。在

我想知道如何在PySpark的PySpark rdd中实现这一点，如下面第2行代码所示

火花鳞片

^{pr2}$

PySpark

videos_rdd = sc.textFile("/user/spark_dataset/datastax_ds320/videos.csv", 4)
videos_rdd_flat = videos_rdd.flatMap(lambda t:t.split(","))**

谢谢

Tags：文件 csv 代码视频 action videos drop spark

1条回答

网友

1楼 · 发布于 2024-10-01 13:27:37

您可以使用拼接：

videos_rdd.flatMap(lambda t: t.split(",")[1:])