我正在开发一个Google Analytics API,它可以提取我需要的所有维度和指标,并将它们排序到数据框架中。我的代码总共有九个数据帧
当我尝试合并数据帧时,我不断收到一条“Killed:9”错误消息。我知道我的代码效率很低,在一个接一个的合并过程中可能会占用大量内存,但我不知道如何修复它
以下是合并的示例
MergeThree = pd.merge(MergeTwo, dfFour, how = 'outer', on = ['A', 'B', 'C', 'D']).fillna(0)
MergeThree = MergeThree[[
#dimensions
'A', 'B', 'C', 'D', 'E', 'F',
'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P',
#metrics
'Q', 'R', 'S', "T", 'U',
'V', 'W', 'X', 'Y', 'Z', 'AA', 'AB', "AC"
]]
MergeFour = pd.merge(MergeThree, dfFive, how = 'outer', on = ['A', 'B', 'C', 'D']).fillna(0)
MergeFour = MergeFour[[
#dimensions
'A', 'B', 'C', 'D', 'E', 'F',
'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P', 'AD',
#metrics
'Q', 'R', 'S', "T", 'U',
'V', 'W', 'X', 'Y', 'Z', 'AA', 'AB', "AC"
]]
MergeFive = pd.merge(MergeFour, dfSix, how = 'outer', on = ['A', 'B', 'C', 'D']).fillna(0)
MergeFive = MergeFive[[
#dimensions
'A', 'B', 'C', 'D', 'E', 'F',
'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P', 'AD', 'AE',
#metrics
'Q', 'R', 'S', "T", 'U',
'V', 'W', 'X', 'Y', 'Z', 'AA', 'AB', "AC"
]]
ect.
我已经尝试过许多不同版本的合并,我唯一可以开始工作的版本是这样的
def MergeProcessThree(x):
MergeThree = pd.merge(x, dfFourX, how = 'outer', on = ['A', 'B', 'C', 'D']).fillna(0)
MergeThree = MergeThree[[
#dimensions
'A', 'B', 'C', 'D', 'E', 'F',
'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P',
#metrics
'Q', 'R', 'S', "T", 'U',
'V', 'W', 'X', 'Y', 'Z', 'AA', 'AB', "AC"'
]]
MergeThree.to_csv('MergeThree.csv.gz', mode='a', index=False, compression='gzip')
MergeTwoX = pd.read_csv('MergeTwo.csv.gz', chunksize=100, compression='gzip')
for i in MergeTwoX:
MergeProcessThree(i)
print('Merge Three Complete')
def MergeProcessFour(x):
MergeFour = pd.merge(x, dfFiveX, how = 'outer', on = [''A', 'B', 'C', 'D']).fillna(0)
MergeFour = MergeFour[[
#dimensions
'A', 'B', 'C', 'D', 'E', 'F',
'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
'P', 'AD',
#metrics
'Q', 'R', 'S', "T", 'U',
'V', 'W', 'X', 'Y', 'Z', 'AA', 'AB', "AC"
]]
MergeFour.to_csv('MergeFour.csv.gz', mode='a', index=False, compression='gzip')
MergeThreeX = pd.read_csv('MergeThree.csv.gz', chunksize=100, compression='gzip')
for i in MergeThreeX:
MergeProcessFour(i)
print('Merge Four Complete')
etc.
但数据看起来并不正确。看起来它基本上是翻倍的,但是缺少了正常合并中的东西,而不是由块分解的合并中的东西
我知道必须有更好的方法来实现这一点,并得到我所期待的结果
在此方面的任何帮助都将不胜感激
正如Chaos所提到的,压缩没有固定的方法,有时候你可以从中获得很多,而其他时候可能没有多大帮助
一般的想法是,如果不改变原始值或在允许的阈值范围内,则可以使用较少的精度来表示数字。例如,如果一个列确实只有二进制值{0,1},那么您可以使用np.int8而不是普通的np.int32或64,您可以通过简单的
df[binary_column_name] = df[binary_column_name].astype(int)
来实现,另一个例子是np.float16(1.23456789)=1.234
,如果您的应用程序可以接受这种截断您可以编写一个函数,自动完成此操作
np.iinfo(np.int8) -> min=-128, max=127
您可以查看系统信息,或者
pandas.DataFrame.memory_usage
比较执行上述步骤后内存减少的程度另外请注意,某些系统不支持某些数据类型,因此合并后可能需要将其转换为可接受的数据类型。(例如,如果要将df保存到feather,它不接受float16 afik)
相关问题 更多 >
编程相关推荐