Spark：加载多个文件、单独分析、合并结果和

val data = sc.wholeTextFiles("HDFS_PATH") val files = data.map { case (filename, content) => filename} def doSomething(file: String) = { println (file); // your logic of processing a single file comes here val logData = sc.textFile(file); val numAs = logData.filter(line => line.contains("a")).count(); println("Lines with a: %s".format(numAs)); // save rdd of single file processed data to hdfs comes here } files.collect.foreach( filename => { doSomething(filename) })

+---------+------+-------------------+-----+ | location|status| timestamp|wh_id| +---------+------+-------------------+-----+ | PUTAWAY| I|2019-04-01 03:14:00| 20| |PICKABLE1| X|2019-04-01 04:24:00| 20| |PICKABLE2| X|2019-04-01 05:33:00| 20| |PICKABLE2| A|2019-04-01 06:42:00| 20| | HOTPICK| A|2019-04-10 05:51:00| 20| | ICEXCEPT| A|2019-04-10 07:04:00| 20| | ICEXCEPT| X|2019-04-11 09:28:00| 20| +---------+------+-------------------+-----+

2条回答

网友

1楼 · 编辑于 2024-09-27 17:36:17

不建议使用wholeTextFiles，因为它会立即将整个文件加载到内存中。如果您真的想为每个文件创建一个单独的数据帧，您可以简单地使用完整路径而不是目录。但是，不建议这样做，而且很可能导致资源利用率低下。相反，考虑使用input_file_pathhttps://spark.apache.org/docs/2.4.0/api/java/org/apache/spark/sql/functions.html#input_file_name

例如：

spark
.read
  .textFile("path/to/files")
  .withColumn("file", input_file_name())
  .filter($"value" like "%a%")
  .groupBy($"file")
  .agg(count($"value"))
  .show(10, false)

^{pr2}$

所以这些文件可以单独处理，然后再合并。在

网友

2楼 · 编辑于 2024-09-27 17:36:17

您可以在hdfs中获取文件路径

import  org.apache.hadoop.fs.{FileSystem,Path}

val files=FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path(your_path)).map( x => x.getPath ).map(x=> "hdfs://"+x.toUri().getRawPath())

为每个数据帧创建唯一的数据路径

^{pr2}$

在联合到一个数据帧之前应用过滤器或任何转换

val df= arr_df.map(x=> x.where(your_filter)).reduce(_ union _)

相关问题更多 >

编程相关推荐

热门问题

热门文章