如何根据fi的日期戳过滤Spark数据帧 - 问答 - Python中文网

如何根据fi的日期戳过滤Spark数据帧

2024-09-30 04:33:07 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

有人能告诉我如何过滤文件上的日期戳吗

我在Azure Data Lake中各自的文件夹中有以下文件：

adl://carlslake.azuredatalakestore.net/folderOne/filenr1_1166_2018-12-20%2006-05-52.csv

adl://carlslake.azuredatalakestore.net/folderTwo/filenr2_1168_2018-12-22%2006-07-31.csv

我写了下面的脚本，将读取两个文件夹中的所有.csv文件，但我只想根据当前日期读取各自文件夹中的.csv文件。在

^{pr2}$

有人能告诉我如何根据当前日期调整文件夹中的上述读取文件，例如两个.csv文件是2018-12-20和2018-12-22

我想它可能是写的

^{3}$

但那没用

Tags：文件 csv 脚本文件夹 data net azure adl

2条回答

网友

1楼 · 编辑于 2024-09-30 04:33:07

随你去吧

test1 = spark.read.csv("adl://carlslake.azuredatalakestore.net/testfolder/RAW/*{today}.csv"

另一个模式*_{today}*.csv与上面的文件示例filenr1_1166_2018-12-20%2006-05-52.csv不匹配

网友

2楼 · 编辑于 2024-09-30 04:33:07

尝试一下

from datetime import datetime

today = datetime.today().date()
test1 = spark.read.csv(f"adl://carlslake.azuredatalakestore.net/
                       folderOne/*_{today}*.csv")

相关问题更多 >

编程相关推荐

热门问题

热门文章