java是查找在最后“x”分钟内修改的文件的最快方法
我需要在目录中查找过去10分钟内修改的文件。该目录不断更新,每次大约有50k-60k个文件。我正在使用以下代码获取文件:
import java.io.File
import java.time.Instant
val dir = new File("/path/to/dir")
val files = dir.listFiles.toList.filter(f => f.getName.matches("some filter"))
files.filter(f => f.isFile && f.exists &&
Instant.ofEpochMilli(f.lastModified).plus(10, MINUTES).isAfter(Instant.now))
.toList.sortBy(_.lastModified)
这大约需要20-30分钟。但我想在10分钟内得到结果。 我甚至试着用spark在hadoop集群中运行它。这是火花代码:
val sparkConfig = new SparkConf()
.setAppName("findRecentFiles")
.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.set("spark.shuffle.compress", "true")
.set("spark.rdd.compress", "true")
val sc = new SparkContext(sparkConfig)
val rdd = sc.parallelize(files)
rdd.filter(f => f.isFile && f.exists &&
Instant.ofEpochMilli(f.lastModified).plus(10, MINUTES).isAfter(Instant.now))
.collect.toList.sortBy(_.lastModified)
但这需要同样的时间。我注意到,基于文件名的过滤速度很快。但添加最新修改的过滤器会使速度变慢。有没有更好的方法让我更快地得到结果
更新
我更新了spark配置,现在我可以在不到10分钟内得到结果。之前,我是这样运行罐子的:
spark-submit myJar.jar
我改成这样:
spark-submit --deploy-mode client --queue SomeNonDefaultQueue --executor-memory 16g --num-executors 10 --executor-cores 1 --master yarn myJar.jar
还从代码中删除了set("spark.rdd.compress", "true")
,因为它增加了CPU时间,如本文所述-https://spark.apache.org/docs/2.3.0/configuration.html#compression-and-serialization
# 1 楼答案
问题是
stat()
检查get last modified是在对目录进行线性搜索以查找名称之后进行的。如果可以更改目录格式,请添加子目录(按文件名计算),并尝试将每个子目录中的条目数分组到~1000否则,创建一个名为:lastModified的映射,并在触发事件时使用^{} 更新映射