我正在构建一个应用程序,它需要列出存储在aws3中的大量对象(比如5亿到10亿个对象)。直接通过分页列出对象需要几周时间。我想将列表并行化,但要有效地实现这一点,我需要映射基本上未知的键空间。在
对于更多背景,AWS允许您在ListBuckets操作中提供前缀和分隔符。请看这里:http://docs.aws.amazon.com/AmazonS3/latest/dev/ListingKeysHierarchy.html
所以,看起来我需要一个能够枚举未知S3键空间(前缀空间?)的算法并尝试将发现的前缀分组到大约[X]个大小相等的bucket中,这些bucket可以被并行化,以便进行均匀的采样和快速的列表。在
高级伪代码:
挑战:
目标是以编程方式发现和分组前缀,以便对未知前缀结构的列表进行均匀采样和并行化。任何关于算法,链接,例子的想法,将不胜感激!在
目前没有回答
相关问题 更多 >
编程相关推荐