如何根据fi的日期戳过滤Spark数据帧

2024-09-30 04:33:07 发布

您现在位置:Python中文网/ 问答频道 /正文

有人能告诉我如何过滤文件上的日期戳吗

我在Azure Data Lake中各自的文件夹中有以下文件:

adl://carlslake.azuredatalakestore.net/folderOne/filenr1_1166_2018-12-20%2006-05-52.csv

adl://carlslake.azuredatalakestore.net/folderTwo/filenr2_1168_2018-12-22%2006-07-31.csv

我写了下面的脚本,将读取两个文件夹中的所有.csv文件,但我只想根据当前日期读取各自文件夹中的.csv文件。在

^{pr2}$

有人能告诉我如何根据当前日期调整文件夹中的上述读取文件,例如两个.csv文件是2018-12-20和2018-12-22

我想它可能是写的

^{3}$

但那没用


Tags: 文件csv脚本文件夹datanetazureadl
2条回答

随你去吧

test1 = spark.read.csv("adl://carlslake.azuredatalakestore.net/testfolder/RAW/*{today}.csv"

另一个模式*_{today}*.csv与上面的文件示例filenr1_1166_2018-12-20%2006-05-52.csv不匹配

尝试一下

from datetime import datetime

today = datetime.today().date()
test1 = spark.read.csv(f"adl://carlslake.azuredatalakestore.net/
                       folderOne/*_{today}*.csv")

相关问题 更多 >

    热门问题