Python Pandas合并导致内存

import requests, zipfile, StringIO import numpy as np import pandas as pd STAR2013url="http://www3.cde.ca.gov/starresearchfiles/2013/p3/ca2013_all_csv_v3.zip" STAR2013fileName = 'ca2013_all_csv_v3.txt' r = requests.get(STAR2013url) z = zipfile.ZipFile(StringIO.StringIO(r.content)) STAR2013=pd.read_csv(z.open(STAR2013fileName))

STARentityList2013url = "http://www3.cde.ca.gov/starresearchfiles/2013/p3/ca2013entities_csv.zip" STARentityList2013fileName = "ca2013entities_csv.txt" r = requests.get(STARentityList2013url) z = zipfile.ZipFile(StringIO.StringIO(r.content)) STARentityList2013=pd.read_csv(z.open(STARentityList2013fileName)) STARlookUpTestID2013url = "http://www3.cde.ca.gov/starresearchfiles/2013/p3/tests.zip" STARlookUpTestID2013fileName = "Tests.txt" r = requests.get(STARlookUpTestID2013url) z = zipfile.ZipFile(StringIO.StringIO(r.content)) STARlookUpTestID2013=pd.read_csv(z.open(STARlookUpTestID2013fileName)) STARlookUpSubgroupID2013url = "http://www3.cde.ca.gov/starresearchfiles/2013/p3/subgroups.zip" STARlookUpSubgroupID2013fileName = "Subgroups.txt" r = requests.get(STARlookUpSubgroupID2013url) z = zipfile.ZipFile(StringIO.StringIO(r.content)) STARlookUpSubgroupID2013=pd.read_csv(z.open(STARlookUpSubgroupID2013fileName))

1条回答

网友
1楼 · 发布于 2024-06-01 06:03:45

虽然这是个老问题，但我最近遇到了同样的问题。
在我的例子中，两个数据帧中都需要重复的键，我需要一个方法，该方法可以在计算之前判断合并是否适合内存，如果不适合，则更改计算方法。
我想出的方法如下：
计算合并大小：
def merge_size(left_frame, right_frame, group_by, how='inner'): left_groups = left_frame.groupby(group_by).size() right_groups = right_frame.groupby(group_by).size() left_keys = set(left_groups.index) right_keys = set(right_groups.index) intersection = right_keys & left_keys left_diff = left_keys - intersection right_diff = right_keys - intersection left_nan = len(left_frame[left_frame[group_by] != left_frame[group_by]]) right_nan = len(right_frame[right_frame[group_by] != right_frame[group_by]]) left_nan = 1 if left_nan == 0 and right_nan != 0 else left_nan right_nan = 1 if right_nan == 0 and left_nan != 0 else right_nan sizes = [(left_groups[group_name] * right_groups[group_name]) for group_name in intersection] sizes += [left_nan * right_nan] left_size = [left_groups[group_name] for group_name in left_diff] right_size = [right_groups[group_name] for group_name in right_diff] if how == 'inner': return sum(sizes) elif how == 'left': return sum(sizes + left_size) elif how == 'right': return sum(sizes + right_size) return sum(sizes + left_size + right_size)
注：
目前用这种方法，密钥只能是一个标签，不能是一个列表。为group_by使用列表当前返回列表中每个标签的合并大小之和。这将导致合并大小远远大于实际合并大小。
如果正在使用分组依据的标签列表，则最终行大小为：
min([merge_size(df1, df2, label, how) for label in group_by])
检查这是否符合记忆
这里定义的merge_size函数返回将两个数据帧合并在一起创建的行数。
通过将其与两个数据帧中的列数相乘，然后乘以np.float[32/64]的大小，可以大致了解生成的数据帧在内存中的大小。然后可以将其与^{}进行比较，看看您的系统是否可以计算完全合并。
def mem_fit(df1, df2, key, how='inner'): rows = merge_size(df1, df2, key, how) cols = len(df1.columns) + (len(df2.columns) - 1) required_memory = (rows * cols) * np.dtype(np.float64).itemsize return required_memory <= psutil.virtual_memory().available
本文提出了merge_size方法作为pandas的扩展。https://github.com/pandas-dev/pandas/issues/15068。

计算合并大小：

注：

检查这是否符合记忆

相关问题更多 >

编程相关推荐

热门问题

热门文章