我正在尝试序列化PySparkPipeline
对象,以便以后可以保存和检索它。尝试使用Python pickle库和PySpark的PickleSerializer
,dumps()
调用本身失败。在
在使用本机pickle
库时提供代码段。在
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])
with open ('myfile', 'wb') as f:
pickle.dump(pipeline,f,2)
with open ('myfile', 'rb') as f:
pipeline1 = pickle.load(f)
运行时出现以下错误:
^{pr2}$是否可以序列化PySparkPipeline
对象?在
从技术上讲,您可以轻松地pickle
Pipeline
对象:不能pickle的是Spark},它们只是JVM对象的一个很薄的包装器。如果确实需要,可以将其包装在函数中,例如:
^{pr2}$Transformers
和{但由于它只是一段代码,不存储任何持久性数据,所以看起来并不是特别有用。在
相关问题 更多 >
编程相关推荐