带有python/pandas和大型左外部连接的MemoryError

import pandas as pd leftcols = ['a','b','c','d','e','key'] leftdata = pd.read_csv("LEFT.csv", names=leftcols) rightcols = ['x','y','z','key'] rightdata = pd.read_csv("RIGHT.csv", names=rightcols) mergedata = pd.merge(leftdata, rightdata, on='key', how='left') mergedata.to_csv("FINAL.csv")

3条回答

网友

1楼 · 编辑于 2024-10-06 11:21:19

为什么不直接将您的右文件读入pandas（或者甚至读入一个简单的字典），然后使用csv模块遍历左文件来读取、扩展和写入每一行呢？处理时间是否是一个重要的限制因素（相对于开发时间）？在

网友

2楼 · 编辑于 2024-10-06 11:21:19

正如另一个问题"Large data" work flows using pandas所建议的，dask（http://dask.pydata.org）可能是一个简单的选择。在

简单的例子

import dask.dataframe as dd
df1 = dd.read_csv('df1.csv')
df2 = dd.read_csv('df2.csv')
df_merge = dd.merge(df1, df2, how='left')

网友

3楼 · 编辑于 2024-10-06 11:21:19

这种方法最终奏效了。下面是我的代码模型：

import csv

idata = open("KEY_ABC.csv","rU")
odata = open("KEY_XYZ.csv","rU")

leftdata = csv.reader(idata)
rightdata = csv.reader(odata)

def gen_chunks(reader, chunksize=1000000):
    chunk = []
    for i, line in enumerate(reader):
        if (i % chunksize == 0 and i > 0):
            yield chunk
            del chunk[:]
        chunk.append(line)
    yield chunk

count = 0

d1 = dict([(rows[3],rows[0]) for rows in rightdata])
odata.seek(0)    
d2 = dict([(rows[3],rows[1]) for rows in rightdata])
odata.seek(0)
d3 = dict([(rows[3],rows[2]) for rows in rightdata])

for chunk in gen_chunks(leftdata):
    res = [[k[0], k[1], k[2], k[3], k[4], k[5], k[6], 
                d1.get(k[6], "NaN")] for k in chunk]
    res1 = [[k[0], k[1], k[2], k[3], k[4], k[5], k[6], k[7], 
                d2.get(k[6], "NaN")] for k in res]
    res2 = [[k[0], k[1], k[2], k[3], k[4], k[5], k[6], k[7], k[8],
                d3.get(k[6], "NaN")] for k in res1]
    namestart = "FINAL_"
    nameend = ".csv"
    count = count+1
    filename = namestart + str(count) + nameend
    with open(filename, "wb") as csvfile:
        output = csv.writer(csvfile)
        output.writerows(res2)

通过将左数据集拆分为块，将右数据集转换为每个非键列的一个字典，并将列添加到左数据集（使用字典和键匹配填充这些列），脚本成功地在大约4分钟内完成了整个左连接，并且没有内存问题。在

还要感谢用户miku，他在对this post的评论中提供了区块生成器代码。在

也就是说：我非常怀疑这是最有效的方法。如果有人对改进这种方法有任何建议，请立即提出。在

相关问题更多 >

编程相关推荐

热门问题

热门文章