我在Microsoft Azure Storage Explorer中有一个拼花地板文件名
文件名如下所示:
dataset_2019_11_19-19.parquet
dataset_2020_01_19-20.parquet
dataset_2020_01_20-20.parquet
dataset_2020_01_21-20.parquet
dataset_2020_01_22-20.parquet
如果我想读取2020年的所有数据,我会这样做,我使用通配符获取2020年后的任何数据:
datapath_v3_indata_imptp = "wasbs://mydata@mine.blob.core.windows.net/first_folder/dataset_2020*"
df_indata_v3_imptp=spark.read.format("parquet").option("header", "true").load(datapath_v3_indata_imptp)
如何仅获取最后21天的数据
使用格式创建日期
input_file_name()
函数从文件名中提取日期,然后split
+regexp_extract
(仅获取日期),最后to_date
以^{date_sub(current_date(),21)
函数获取21天前的日期李>Example:
相关问题 更多 >
编程相关推荐