一种高效的内存创建列的方法，该列指示一组列中值的唯一组合问题的回答

一种高效的内存创建列的方法，该列指示一组列中值的唯一组合

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想找到一种更有效的方法（在峰值内存使用率和可能的时间方面）来完成panda的<code>groupby.ngroup</code>工作，这样在处理大型数据集时就不会遇到内存问题（下面我提供了为什么本专栏对我有用的原因）。以一个小数据集为例。我可以使用<code>groupby.ngroup</code>轻松完成这项任务。你知道吗 <pre><code>import pandas as pd import numpy as np df = pd.DataFrame(np.array( [[0, 1, 92], [0, 0, 39], [0, 0, 32], [1, 0, 44], [1, 1, 50], [0, 1, 11], [0, 0, 14]]), columns=['male', 'edu', 'wage']) df['group_id'] = df.groupby(['male', 'edu']).ngroup() df male edu wage group_id 0 0 1 92 1 1 0 0 39 0 2 0 0 32 0 3 1 0 44 2 4 1 1 50 3 5 0 1 11 1 6 0 0 14 0 </code></pre> 但是当我开始使用更大的数据集时，内存使用和计算时间会爆炸，groupby中的内存使用与数据帧内存使用的比率在<code>N=100,000,000</code>比<code>N=100,000</code>增加了近三倍。见下文。你知道吗 <pre><code>from memory_profiler import memory_usage import time N_values = [10**k for k in range(4, 9)] stats = pd.DataFrame(index=N_values, dtype=float, columns=['time', 'basemem', 'groupby_mem']) for N in N_values: df = pd.DataFrame( np.hstack([np.random.randint(0, 2, (N, 2)), np.random.normal(5, 1, (N, 1))]), columns=['male', 'edu', 'wage'] ) def groupby_ngroup(): df.groupby(['male', 'edu']).ngroup() def foo(): pass basemem = max(memory_usage(proc=foo)) tic = time.time() mem = max(memory_usage(proc=groupby_ngroup)) toc = time.time() - tic stats.loc[N, 'basemem'] = basemem stats.loc[N, 'groupby_mem'] = mem stats.loc[N, 'time'] = toc stats['mem_ratio'] = stats.eval('groupby_mem/basemem') stats time basemem groupby_mem mem_ratio 10000 0.037834 104.781250 105.359375 1.005517 100000 0.051785 108.187500 113.125000 1.045638 1000000 0.143642 128.156250 182.437500 1.423555 10000000 0.644650 334.148438 820.183594 2.454549 100000000 6.074531 2422.585938 7095.437500 2.928869 </code></pre> 为什么我对这个组标识符感兴趣？因为我想创建使用pandas <code>groupby</code>函数的列，比如使用<code>.map</code>方法的<code>groupby.mean</code>，而不是占用大量内存和时间的<code>groupby.transform</code>。此外，<code>.map</code>方法可用于<code>dask</code>数据帧，因为<code>dask</code>当前不支持<code>.transform</code>。对于<code>"group_id"</code>列，我可以简单地执行<code>means = df.groupby(['group_id'])['wage'].mean()</code>和<code>df['mean_wage'] = df['group_id'].map(means)</code>来执行<code>transform</code>的工作。你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

对于groupby中groupby变量的模式未知的groupby来说，<code>groupby.ngroup</code>似乎是最好的。但是如果groupby变量都是分类的，例如，取值<code>0,1,2,3....</code>，那么我们可以从<code>@saurjog</code>给出的解决方案中得到启发。你知道吗 为了生成组ID，我们可以构建一个数值表达式来计算groupby变量的特殊和。考虑以下功能 <pre class="lang-py prettyprint-override"><code>def gen_groupby_numexpr(cols, numcats): txt = [cols[0]] k = numcats[0] for c,k_ in zip(cols[1:], numcats[1:]): txt.append('{}*{}'.format(k, c)) k = k*k_ return ' + '.join(txt) def ngroup_cat(df, by, numcats): ''' by : list the categorical (0,1,2,3...) groupby column names numcats : list the number of unique values for each column in "by" ''' expr = gen_groupby_numexpr(by, numcats) return df.eval(expr) </code></pre> 函数<code>gen_groupby_numexpr</code>生成数值表达式，<code>ngroup_cat</code>为<code>by</code>中具有唯一值计数<code>numcats</code>的groupby变量生成组id。因此，考虑以下与我们的用例匹配的数据集。它包含3个分类变量，我们将使用它们来形成groupby，其中两个变量在<code>{0,1}</code>中取值，一个变量在<code>{0,1,2}</code>中取值。你知道吗 <pre><code>df2 = pd.DataFrame(np.hstack([np.random.randint(0, 2, (100, 2)), np.random.randint(0, 3, (100, 1)), np.random.randint(0, 20, (100, 1))]), columns=['male', 'mar', 'edu', 'wage']) </code></pre> 如果我们生成数值表达式，我们得到： <pre><code>'male + 2*mar + 4*edu' </code></pre> 总之，我们可以用 <pre><code>df2['group_id'] = ngroup_cat(df2, ['male', 'mar', 'edu'], [2, 2, 3]) </code></pre> 从中我们得到<code>2*2*3=12</code>唯一组ID： <pre><code>df2[['male', 'mar', 'edu', 'group_id']].drop_duplicates().sort_values(['group_id']) male mar edu group_id 1 0 0 0 0 13 1 0 0 1 8 0 1 0 2 10 1 1 0 3 4 0 0 1 4 12 1 0 1 5 2 0 1 1 6 6 1 1 1 7 7 0 0 2 8 5 1 0 2 9 44 0 1 2 10 0 1 1 2 11 </code></pre> 当我将上述解决方案与<code>groupby.ngroup</code>作基准时，它在<code>N=10,000,000</code>的数据集上运行速度快了近3倍，并且使用的额外内存明显减少。你知道吗 现在我们可以通过方法来估计这些组，然后将它们映射回整个数据帧来进行转换工作。我计算了一些关于使用<code>transform</code>还是<code>groupby</code>的基准测试，结果不一，那么<code>map</code>更快，占用的内存更少。如果你计算的是多变量组的平均数，那么我认为后者更有效。此外，后者也可以在<code>dask</code>中完成，其中<code>transform</code>还不受支持。你知道吗

一种高效的内存创建列的方法，该列指示一组列中值的唯一组合

1 个回答

相关Python问题