使用multiprocessing.Manager.list而不是实际的list会使计算耗时较长

2条回答

网友

1楼 · 编辑于 2024-05-17 04:35:09

这是意料之中的，因为访问共享对象意味着必须pickle请求通过某种信号/syscall发送它取消pickle请求执行它并以相同的方式返回结果。

基本上你应该尽量避免共享内存。这将导致更多的可调试代码（因为您的并发性要少得多），并且速度更快。

只有在真正需要的时候才应该使用共享内存（例如，共享千兆字节的数据，以便复制它需要太多的RAM，或者进程应该能够通过这个共享内存进行交互）。

另一方面，使用管理器可能比共享数组慢得多，因为管理器必须能够处理任何PyObject*，因此必须pickle/unpickle等，而数组可以避免很多这样的开销。

从多处理的文档中：

Managers provide a way to create data which can be shared between different processes. A manager object controls a server process which manages shared objects. Other processes can access the shared objects by using proxies.

因此，使用管理器意味着生成一个新进程，该进程仅用于处理共享内存，这可能是它需要更多时间的原因。

如果您尝试分析代理的速度，它会比非共享列表慢很多：

>>> import timeit
>>> import multiprocessing as mp
>>> man = mp.Manager()
>>> L = man.list(range(25000))
>>> timeit.timeit('L[0]', 'from __main__ import L')
50.490395069122314
>>> L = list(range(25000))
>>> timeit.timeit('L[0]', 'from __main__ import L')
0.03588080406188965
>>> 50.490395069122314 / _
1407.1701119638526

虽然Array没有那么慢：

>>> L = mp.Array('i', range(25000))
>>> timeit.timeit('L[0]', 'from __main__ import L')
0.6133401393890381
>>> 0.6133401393890381 / 0.03588080406188965
17.09382371507359

因为最基本的操作是缓慢的，并且不认为有太大的希望来加速它们，这意味着如果您必须共享一个大的数据列表并希望快速访问它，那么您应该使用一个Array。

一次访问多个元素（例如，获取切片而不是单个元素）可能会稍微加快速度，但这取决于您要执行的操作可能是，也可能是不可能的。

网友

2楼 · 编辑于 2024-05-17 04:35:09

当子进程是os.forked时，Linux使用copy-on-write来演示：

import multiprocessing as mp
import numpy as np
import logging
import os

logger = mp.log_to_stderr(logging.WARNING)

def free_memory():
    total = 0
    with open('/proc/meminfo', 'r') as f:
        for line in f:
            line = line.strip()
            if any(line.startswith(field) for field in ('MemFree', 'Buffers', 'Cached')):
                field, amount, unit = line.split()
                amount = int(amount)
                if unit != 'kB':
                    raise ValueError(
                        'Unknown unit {u!r} in /proc/meminfo'.format(u = unit))
                total += amount
    return total

def worker(i):
    x = data[i,:].sum()    # Exercise access to data
    logger.warn('Free memory: {m}'.format(m = free_memory()))

def main():
    procs = [mp.Process(target = worker, args = (i, )) for i in range(4)]
    for proc in procs:
        proc.start()
    for proc in procs:
        proc.join()

logger.warn('Initial free: {m}'.format(m = free_memory()))
N = 15000
data = np.ones((N,N))
logger.warn('After allocating data: {m}'.format(m = free_memory()))

if __name__ == '__main__':
    main()

它屈服了

[WARNING/MainProcess] Initial free: 2522340
[WARNING/MainProcess] After allocating data: 763248
[WARNING/Process-1] Free memory: 760852
[WARNING/Process-2] Free memory: 757652
[WARNING/Process-3] Free memory: 757264
[WARNING/Process-4] Free memory: 756760

这表明最初大约有2.5GB的空闲内存。在分配15000x15000个float64s数组后，有763248 KB空闲空间。这大概是有道理的，因为15000**2*8字节=1.8GB，内存的减少，2.5GB-0.763248GB也大约是1.8GB。

现在，每个进程生成后，空闲内存再次报告为~750MB。可用内存没有明显减少，因此我得出结论，系统必须使用写时拷贝。

结论：如果不需要修改数据，那么在__main__模块的全局级别定义它是在子进程之间共享数据的一种方便且（至少在Linux上）内存友好的方式。

相关问题更多 >

编程相关推荐

热门问题

热门文章