从s3中提取zip中的子文件夹

2024-09-30 22:12:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用pyspark编写一个python程序,它读取本地系统文件夹中的文件。现在,我想从s3读取这些文件。为了方便起见,数据集压缩在s3中。所以,文件夹结构是

在数据集.zip->;数据集(文件夹)->文件

现在,我想在pythonspark中读取这些文件。我发现了以下代码:

val AccessKey = "REPLACE_WITH_YOUR_ACCESS_KEY"
val SecretKey = "REPLACE_WITH_YOUR_SECRET_KEY"
val EncodedSecretKey = SecretKey.replace("/", "%2F")
val AwsBucketName = "REPLACE_WITH_YOUR_S3_BUCKET"
val MountName = "REPLACE_WITH_YOUR_MOUNT_NAME"

dbutils.fs.mount(s"s3a://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName")
myRDD = sc.textFile("/mnt/%s/...path_to_your_file..." % MOUNT_NAME)
myRDD.count()

但是,我认为这不会读取文件夹中的所有文件。我该怎么做?在

谢谢你


Tags: 文件数据key文件夹yours3withval