我正在用pyspark编写一个python程序,它读取本地系统文件夹中的文件。现在,我想从s3读取这些文件。为了方便起见,数据集压缩在s3中。所以,文件夹结构是
在数据集.zip->;数据集(文件夹)->文件
现在,我想在pythonspark中读取这些文件。我发现了以下代码:
val AccessKey = "REPLACE_WITH_YOUR_ACCESS_KEY"
val SecretKey = "REPLACE_WITH_YOUR_SECRET_KEY"
val EncodedSecretKey = SecretKey.replace("/", "%2F")
val AwsBucketName = "REPLACE_WITH_YOUR_S3_BUCKET"
val MountName = "REPLACE_WITH_YOUR_MOUNT_NAME"
dbutils.fs.mount(s"s3a://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName")
myRDD = sc.textFile("/mnt/%s/...path_to_your_file..." % MOUNT_NAME)
myRDD.count()
但是,我认为这不会读取文件夹中的所有文件。我该怎么做?在
谢谢你
目前没有回答
相关问题 更多 >
编程相关推荐