2024-05-11 23:20:55 发布
网友
我的数据以一组Python 3 pickled文件的形式提供。其中大部分是熊猫的系列化。
我想开始使用Spark,因为我需要比一台电脑更多的内存和CPU。另外,我将使用HDFS进行分布式存储。
作为一个初学者,我没有找到解释如何使用pickle文件作为输入文件的相关信息。
它存在吗?如果没有,有什么解决办法吗?
非常感谢
很大程度上取决于数据本身。一般来说,当Spark必须读取大的、不可拆分的文件时,它的性能不是特别好。不过,您可以尝试使用binaryFiles方法并将其与标准Python工具结合起来。让我们从虚拟数据开始:
binaryFiles
import tempfile import pandas as pd import numpy as np outdir = tempfile.mkdtemp() for i in range(5): pd.DataFrame( np.random.randn(10, 2), columns=['foo', 'bar'] ).to_pickle(tempfile.mkstemp(dir=outdir)[1])
接下来,我们可以使用bianryFiles方法读取它:
bianryFiles
rdd = sc.binaryFiles(outdir)
并反序列化单个对象:
import pickle from io import BytesIO dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p))) dfs.first()[:3] ## foo bar ## 0 -0.162584 -2.179106 ## 1 0.269399 -0.433037 ## 2 -0.295244 0.119195
一个重要的注意事项是,它通常需要比像textFile这样的简单方法多得多的内存。
textFile
另一种方法是只并行化路径并使用可以直接从hdfs3这样的分布式文件系统读取的库。这通常意味着更低的内存需求,而代价是更糟糕的数据区域性。
考虑到这两个事实,通常最好将数据序列化为可以以更高粒度加载的格式。
注意:
SparkContext提供了pickleFile方法,但名称可能会引起误解。它可用于读取^{}包含pickle对象,而不是普通的Python pickle。
SparkContext
pickleFile
很大程度上取决于数据本身。一般来说,当Spark必须读取大的、不可拆分的文件时,它的性能不是特别好。不过,您可以尝试使用
binaryFiles
方法并将其与标准Python工具结合起来。让我们从虚拟数据开始:接下来,我们可以使用
bianryFiles
方法读取它:并反序列化单个对象:
一个重要的注意事项是,它通常需要比像
textFile
这样的简单方法多得多的内存。另一种方法是只并行化路径并使用可以直接从hdfs3这样的分布式文件系统读取的库。这通常意味着更低的内存需求,而代价是更糟糕的数据区域性。
考虑到这两个事实,通常最好将数据序列化为可以以更高粒度加载的格式。
注意:
SparkContext
提供了pickleFile
方法,但名称可能会引起误解。它可用于读取^{相关问题 更多 >
编程相关推荐