使用ApacheSp读取多个Pickle文件

2024-09-24 20:32:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我现在正在学习apachespark,我想知道是否可以使用wholeTextFilesfrom{}方法读取多个格式为“.pkl”的文件。例如

conf = SparkConf().setAppName("haha").setMaster("local")
sc = SparkContext(conf = conf)
temp = sc.wholeTextFiles("mydir/*.pkl")   ### The directory of Pickle files.

是否可以使用wholeTextFiles读取pickle文件?如果没有,有什么办法吗?如果有人帮我,我真的很感激。在


Tags: 文件方法localconf格式scpklhaha
1条回答
网友
1楼 · 发布于 2024-09-24 20:32:27

你能试着在python中解压数据,然后把它们转换成sc吗

如python文档中所述:https://docs.python.org/3.0/library/pickle.html

pickle使用的数据格式是Python特有的。这样做的好处是没有外部标准的限制,例如XDR(不能表示指针共享);但是这意味着非Python程序可能无法重建pickle Python对象。在

默认情况下,pickle数据格式使用紧凑的二进制表示。pickletools模块包含用于分析pickle生成的数据流的工具。在

目前有4种不同的方法可用于酸洗。在

协议版本0是原始的ASCII协议,与早期版本的Python向后兼容。 协议版本1是旧的二进制格式,它也与早期版本的Python兼容。 协议版本2是在Python2.3中引入的。它提供了更有效的新样式类的酸洗。 Python3.0中添加了协议版本3。它对字节有明确的支持,不能被Python2.x pickle模块解压。这是当前推荐的协议,只要有可能就使用它。 有关协议2带来的改进的信息,请参阅PEP 307。有关pickle协议使用的操作码的详细说明,请参阅pickletools的源代码。在

相关问题 更多 >