如何在Python中的进程之间共享一个非常大的字典

2024-06-01 11:33:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我读过这篇文章,Python multiprocessing: sharing a large read-only object between processes?,但仍然不确定下一步该怎么做。在

这是我的问题:

我正在使用^{}分析一个由数百万个字符串组成的数组,每个字符串都需要根据一个包含大约200万个(可能更高)键的大dict进行检查。它的值是名为Bloomfilter的定制Python类的对象(因此它们不仅仅是简单的int、float或array),它们的大小从几个字节到1.5gb不等。对每个字符串的分析基本上是检查一个字符串是否在字典中的特定数量的bloomfilters中。它取决于字符串本身来决定哪些bloomfilters是相关的。字典是30G SQLite3DB的转换。其动机是将整个sqlite3db加载到内存中以加快处理速度,但我还没有找到有效地共享dict的方法。我的系统有大约100G的内存。在

以下是我尝试过的方法

对每个字符串的分析都受CPU限制,因此我选择多处理而不是多线程。关键是如何在不复制的情况下在进程之间共享大dict。multiprocess.Valuemultiprocessing.Array不能处理像dict这样的复杂对象。我尝试过multiprocessing.Manager(),但是由于dict太大,我得到了IOError: bad message length错误。我也尝试过在本地主机上使用Redis这样的内存中数据库,但是在获取后用于构建Bloomfilter的bitarray也太大了,无法容纳,这让我觉得在进程之间传递大消息太贵了(是吗?)在

我的问题:

在不同的进程(或者线程,如果有办法绕过GIL)之间共享这样的字典,正确的方法是什么?如果我需要使用数据库,我应该使用哪个数据库?我需要非常快速的读取和数据库应该能够存储非常大的值。(虽然我不认为数据库会起作用,因为传递非常大的值是行不通的,对吗?如果我错了,请纠正我)


Tags: 对象方法内存字符串数据库read字典进程
1条回答
网友
1楼 · 发布于 2024-06-01 11:33:56

结果是@Max和@Dunes都是正确的,但我也不需要os.fork操作系统()直接或全局变量。一些伪代码如下所示,只要big_dict没有在worker中修改,内存中似乎只有一个副本。但是,我不确定这种写时拷贝功能是否在类unix的操作系统中是通用的。我运行代码的操作系统是CentOS 5.10版(最终版)。在

from multiprocessing import Process, Lock

def worker(pid, big_dict, lock):
    # big_dict MUST NOT be modified in the worker because of copy-on-write
    pass
    # do some heavy work

def main():
    big_dict = init_a_very_big_dict()

    NUM_CPUS = 24
    lock = Lock()
    procs = []
    for pid in range(NUM_CPUS):
        proc = Process(target=worker, args=(pid, big_dict, lock))
        proc.daemon = True
        procs.append(proc)
        proc.start()

    for proc in procs:
        proc.join()

相关问题 更多 >