从s3中提取zip中的子文件夹

2024-09-30 22:12:02 发布

您现在位置：Python中文网/ 问答频道 /正文

9855

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在用pyspark编写一个python程序，它读取本地系统文件夹中的文件。现在，我想从s3读取这些文件。为了方便起见，数据集压缩在s3中。所以，文件夹结构是

在数据集.zip->；数据集（文件夹）->文件

现在，我想在pythonspark中读取这些文件。我发现了以下代码：

val AccessKey = "REPLACE_WITH_YOUR_ACCESS_KEY"
val SecretKey = "REPLACE_WITH_YOUR_SECRET_KEY"
val EncodedSecretKey = SecretKey.replace("/", "%2F")
val AwsBucketName = "REPLACE_WITH_YOUR_S3_BUCKET"
val MountName = "REPLACE_WITH_YOUR_MOUNT_NAME"

dbutils.fs.mount(s"s3a://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName")
myRDD = sc.textFile("/mnt/%s/...path_to_your_file..." % MOUNT_NAME)
myRDD.count()

但是，我认为这不会读取文件夹中的所有文件。我该怎么做？在

谢谢你

Tags：文件数据 key 文件夹 your s3 with val

0条回答

目前没有回答

从s3中提取zip中的子文件夹

相关问题更多 >

编程相关推荐

热门问题

热门文章

从s3中提取zip中的子文件夹

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >