python：使用多处理共享大型词典

网友

1楼 · 编辑于 2024-10-01 13:43:23

为了节省时间和不必调试系统级问题，也许可以将580万条记录字典拆分为三组，每组约200万条，然后运行该作业3次。在

网友

2楼 · 编辑于 2024-10-01 13:43:23

如果字典是只读的，那么在大多数操作系统中不需要代理对象。在

只需在启动worker之前加载字典，并将它们放在可以访问的地方；最简单的地方是全局访问模块。工人们可以看出来。在

from multiprocessing import Pool

buf = ""

def f(x):
    buf.find("x")
    return 0

if __name__ == '__main__':
    buf = "a" * 1024 * 1024 * 1024
    pool = Pool(processes=1)
    result = pool.apply_async(f, [10])
    print result.get(timeout=5)

这只使用1GB的内存组合，而不是每个进程使用1GB内存，因为任何现代操作系统都会对fork之前创建的数据进行写时拷贝。请记住，对数据的更改不会被其他工作线程看到，当然，内存将分配给您更改的任何数据。在

它将使用一些内存：包含引用计数的每个对象的页都将被修改，因此它将被分配。这是否重要取决于数据。在

这将适用于任何实现普通分叉的操作系统。它不能在Windows上运行；它的（残废的）进程模型需要为每个工作进程重新启动整个进程，所以它不太擅长共享数据。在

网友

3楼 · 编辑于 2024-10-01 13:43:23

你为什么不试试数据库呢？数据库不仅限于可寻址/物理ram，而且对于多线程/进程使用是安全的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章