from multiprocessing import Process
import pickle
def proc(name):
data = None
# Load intermediate results if they exist
try:
f = open(name+'.pkl', 'rb')
data = pickle.load(f)
f.close()
except:
pass
# Do something
print(data)
data = "intermediate result for " + name
# Periodically save your intermediate results
f = open(name+'.pkl', 'wb')
pickle.dump(data, f, -1)
f.close()
processes = []
for x in range(5):
p = Process(target=proc, args=("proc"+str(x),))
p.daemon = True
p.start()
processes.append(p)
for process in processes:
process.join()
for process in processes:
process.terminate()
至少有两种可能的选择。在
myFunction
的每个调用将其输出保存到一个唯一命名的文件中。文件名应基于或链接到输入数据。使用父程序收集结果。在这种情况下,myFunction
应该返回已完成项的标识符。在imap_unordered
代替map
。这将在结果可用时立即开始生成结果,而不是在所有处理完成后再返回。让父程序保存返回的数据并指出哪些项目已完成。在在这两种情况下,程序都必须检查以前运行时保存的数据,以便在重新启动时调整
myListOfInputParameters
。在哪个选项最好在很大程度上取决于
myFunction
返回的数据量。如果这是一个很大的数额,有一个巨大的开销与转移回母公司。在这种情况下,选择1可能是最好的。在由于写入磁盘的速度相对较慢,使用选项2时计算速度可能会更快。父程序更容易跟踪进度。在
请注意,您还可以将
imap_unordered
与选项1一起使用。在也许用泡菜。阅读更多信息:
https://docs.python.org/3/library/pickle.html
基于aws_学徒的评论,我创建了一个完整的多处理示例,以防您不确定如何使用中间结果。第一次运行时,它将打印“无”,因为没有中间结果。再次运行它以模拟重新启动。在
如果有必要,也可以使用json以人类可读的格式输出中间结果。或者sqlite作为数据库,如果您需要将数据推送到行中。在
相关问题 更多 >
编程相关推荐