读取包含最近21天的文件名

datapath_v3_indata_imptp = "wasbs://mydata@mine.blob.core.windows.net/first_folder/dataset_2020*" df_indata_v3_imptp=spark.read.format("parquet").option("header", "true").load(datapath_v3_indata_imptp)

1条回答

网友

1楼 · 发布于 2024-09-30 20:18:43

使用input_file_name()函数从文件名中提取日期，然后split+regexp_extract（仅获取日期），最后to_date以^{格式创建日期

要筛选，请使用date_sub(current_date(),21)函数获取21天前的日期

Example:

from pyspark.sql.functions import *
#reading directory 
spark.read.parquet("wasbs://mydata@mine.blob.core.windows.net/first_folder/").\
withColumn("date",\
    to_date(\
        regexp_extract(\
            split(input_file_name(),"-")[0]\
            ,"_(.*)",1),\
        "yyyy_MM_dd")).\
filter(col("date") > date_sub(current_date(),21)).\
show(10,False)

编程相关推荐

java在intellij idea中，如何将资源/文件夹编译器下的文件配置为classes/config/folder，而不是直接在classes/folder下
jdbc Java PreparedStatement保留表名大小写
java Android使用来自另一个活动的变量
如果SpringBoot中出现NoHandlerFoundException，java无法返回自定义响应
sql shell脚本未完全从java执行
java试图让视图反映编辑器的状态
数学方程中的Java操作
返回int值的java布尔方法；
java使用ANT根据包名动态生成JAR文件
带约束的java传递面板

相关问题更多 >

编程相关推荐

热门问题

热门文章

读取包含最近21天的文件名

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >