我已尝试使用以下pyspark代码从固定长度文件中读取头记录和尾记录:
path = "/axx/yy/test"
rdd = spark.read.text(path).withColumn("file_name",F.substring_index(input_file_name(),"/",-1)).filter(F.col("value").startswith("XXX") | (F.col("value") startwith("YYY")).select(concat(F.col("value"),F.lit("|"),F.col("file_name"))).rdd.map(list)
我得到的输出:
[[XXX000,Filename1],[XXX000,Filename2],[YYY000,Filename1],[YYY000,Filename2]]
我想要的输出:
[[XXX000,YYY000,Filename1],[XXX000,YYY000,Filename2]]
有人能帮我得到上面格式的输出吗
目前没有回答
相关问题 更多 >
编程相关推荐