使用Pyspark RDD如何提取头记录。。以给定格式

2024-09-30 22:14:52 发布

男 | 程序猿一只，喜欢编程写python代码。

我已尝试使用以下pyspark代码从固定长度文件中读取头记录和尾记录：

path = "/axx/yy/test"
rdd = spark.read.text(path).withColumn("file_name",F.substring_index(input_file_name(),"/",-1)).filter(F.col("value").startswith("XXX") | (F.col("value") startwith("YYY")).select(concat(F.col("value"),F.lit("|"),F.col("file_name"))).rdd.map(list)

我得到的输出：

[[XXX000,Filename1],[XXX000,Filename2],[YYY000,Filename1],[YYY000,Filename2]]

我想要的输出：

[[XXX000,YYY000,Filename1],[XXX000,YYY000,Filename2]]

有人能帮我得到上面格式的输出吗

Tags：文件 path 代码 name value 记录 col pyspark

0条回答

目前没有回答

编程相关推荐

java数独生成器循环
java如何使用Executor创建Jersey 2客户端
java调用阅读器。在DigitalPersona U.are中捕获（）。U SDK不返回
安卓 studio中未找到java类错误
基于颜色对象的java Set Excel样式（背景）
MongoDB java更新为空数组
java无法在安卓 studio中解析XML错误
java JGit签出上一次提交
java在从9.0.1升级到google play services 9.4.0后出现错误。getMap（）；
动态计时器JAVA setTitle

使用Pyspark RDD如何提取头记录。。以给定格式

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Pyspark RDD如何提取头记录。。以给定格式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >