我读过这篇文章,Python multiprocessing: sharing a large read-only object between processes?,但仍然不确定下一步该怎么做。在
这是我的问题:
我正在使用^{Bloomfilter
的定制Python类的对象(因此它们不仅仅是简单的int、float或array),它们的大小从几个字节到1.5gb不等。对每个字符串的分析基本上是检查一个字符串是否在字典中的特定数量的bloomfilters中。它取决于字符串本身来决定哪些bloomfilters是相关的。字典是30G SQLite3DB的转换。其动机是将整个sqlite3db加载到内存中以加快处理速度,但我还没有找到有效地共享dict的方法。我的系统有大约100G的内存。在
以下是我尝试过的方法:
对每个字符串的分析都受CPU限制,因此我选择多处理而不是多线程。关键是如何在不复制的情况下在进程之间共享大dict。multiprocess.Value
和multiprocessing.Array
不能处理像dict这样的复杂对象。我尝试过multiprocessing.Manager()
,但是由于dict太大,我得到了IOError: bad message length
错误。我也尝试过在本地主机上使用Redis这样的内存中数据库,但是在获取后用于构建Bloomfilter的bitarray也太大了,无法容纳,这让我觉得在进程之间传递大消息太贵了(是吗?)在
我的问题:
在不同的进程(或者线程,如果有办法绕过GIL)之间共享这样的字典,正确的方法是什么?如果我需要使用数据库,我应该使用哪个数据库?我需要非常快速的读取和数据库应该能够存储非常大的值。(虽然我不认为数据库会起作用,因为传递非常大的值是行不通的,对吗?如果我错了,请纠正我)
结果是@Max和@Dunes都是正确的,但我也不需要os.fork操作系统()直接或全局变量。一些伪代码如下所示,只要
big_dict
没有在worker
中修改,内存中似乎只有一个副本。但是,我不确定这种写时拷贝功能是否在类unix的操作系统中是通用的。我运行代码的操作系统是CentOS 5.10版(最终版)。在相关问题 更多 >
编程相关推荐