"将多进程作业的中间结果储存在文件系统中，并在稍后继续进行处理"

2条回答

网友

1楼 · 编辑于 2024-10-04 07:27:04

至少有两种可能的选择。在

让myFunction的每个调用将其输出保存到一个唯一命名的文件中。文件名应基于或链接到输入数据。使用父程序收集结果。在这种情况下，myFunction应该返回已完成项的标识符。在
使用imap_unordered代替map。这将在结果可用时立即开始生成结果，而不是在所有处理完成后再返回。让父程序保存返回的数据并指出哪些项目已完成。在

在这两种情况下，程序都必须检查以前运行时保存的数据，以便在重新启动时调整myListOfInputParameters。在

哪个选项最好在很大程度上取决于myFunction返回的数据量。如果这是一个很大的数额，有一个巨大的开销与转移回母公司。在这种情况下，选择1可能是最好的。在

由于写入磁盘的速度相对较慢，使用选项2时计算速度可能会更快。父程序更容易跟踪进度。在

请注意，您还可以将imap_unordered与选项1一起使用。在

网友

2楼 · 编辑于 2024-10-04 07:27:04

基于aws_学徒的评论，我创建了一个完整的多处理示例，以防您不确定如何使用中间结果。第一次运行时，它将打印“无”，因为没有中间结果。再次运行它以模拟重新启动。在

from multiprocessing import Process
import pickle

def proc(name):
  data = None

  # Load intermediate results if they exist
  try:
    f = open(name+'.pkl', 'rb')
    data = pickle.load(f)
    f.close()
  except:
    pass

  # Do something
  print(data)
  data = "intermediate result for " + name

  # Periodically save your intermediate results
  f = open(name+'.pkl', 'wb')
  pickle.dump(data, f, -1)
  f.close()

processes = []
for x in range(5):
  p = Process(target=proc, args=("proc"+str(x),))
  p.daemon = True
  p.start()
  processes.append(p)

for process in processes:
  process.join()

for process in processes:
  process.terminate()

如果有必要，也可以使用json以人类可读的格式输出中间结果。或者sqlite作为数据库，如果您需要将数据推送到行中。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

"将多进程作业的中间结果储存在文件系统中，并在稍后继续进行处理"

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >