文件视频.csv如下所示
2482cal-2792-48da,Action,Comedy
099acca-8888-48ca,Action,Comedy
在Spark Scala中,可以使用.drop(1)
删除RDD列1,以删除所有行的RDD列1,例如482cal-2792-48da
和099acca-8888-48ca
。在
我想知道如何在PySpark的PySpark rdd中实现这一点,如下面第2行代码所示
火花鳞片
^{pr2}$PySpark
videos_rdd = sc.textFile("/user/spark_dataset/datastax_ds320/videos.csv", 4)
videos_rdd_flat = videos_rdd.flatMap(lambda t:t.split(","))**
谢谢
您可以使用拼接:
相关问题 更多 >
编程相关推荐