火花读取python3 pickle作为inpu

1条回答

网友

1楼 · 发布于 2024-05-11 23:20:55

很大程度上取决于数据本身。一般来说，当Spark必须读取大的、不可拆分的文件时，它的性能不是特别好。不过，您可以尝试使用binaryFiles方法并将其与标准Python工具结合起来。让我们从虚拟数据开始：

import tempfile
import pandas as pd
import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):
    pd.DataFrame(
        np.random.randn(10, 2), columns=['foo', 'bar']
    ).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来，我们可以使用bianryFiles方法读取它：

rdd = sc.binaryFiles(outdir)

并反序列化单个对象：

import pickle
from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]

##         foo       bar
## 0 -0.162584 -2.179106
## 1  0.269399 -0.433037
## 2 -0.295244  0.119195

一个重要的注意事项是，它通常需要比像textFile这样的简单方法多得多的内存。

另一种方法是只并行化路径并使用可以直接从hdfs3这样的分布式文件系统读取的库。这通常意味着更低的内存需求，而代价是更糟糕的数据区域性。

考虑到这两个事实，通常最好将数据序列化为可以以更高粒度加载的格式。

注意：

SparkContext提供了pickleFile方法，但名称可能会引起误解。它可用于读取^{}包含pickle对象，而不是普通的Python pickle。

相关问题更多 >

编程相关推荐

热门问题

热门文章

火花读取python3 pickle作为inpu

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >