一种高效的内存创建列的方法，该列指示一组列中值的唯一组合问题的回答

一种高效的内存创建列的方法，该列指示一组列中值的唯一组合

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我想找到一种更有效的方法（在峰值内存使用率和可能的时间方面）来完成panda的<code>groupby.ngroup</code>工作，这样在处理大型数据集时就不会遇到内存问题（下面我提供了为什么本专栏对我有用的原因）。以一个小数据集为例。我可以使用<code>groupby.ngroup</code>轻松完成这项任务。你知道吗 <pre><code>import pandas as pd import numpy as np df = pd.DataFrame(np.array( [[0, 1, 92], [0, 0, 39], [0, 0, 32], [1, 0, 44], [1, 1, 50], [0, 1, 11], [0, 0, 14]]), columns=['male', 'edu', 'wage']) df['group_id'] = df.groupby(['male', 'edu']).ngroup() df male edu wage group_id 0 0 1 92 1 1 0 0 39 0 2 0 0 32 0 3 1 0 44 2 4 1 1 50 3 5 0 1 11 1 6 0 0 14 0 </code></pre> 但是当我开始使用更大的数据集时，内存使用和计算时间会爆炸，groupby中的内存使用与数据帧内存使用的比率在<code>N=100,000,000</code>比<code>N=100,000</code>增加了近三倍。见下文。你知道吗 <pre><code>from memory_profiler import memory_usage import time N_values = [10**k for k in range(4, 9)] stats = pd.DataFrame(index=N_values, dtype=float, columns=['time', 'basemem', 'groupby_mem']) for N in N_values: df = pd.DataFrame( np.hstack([np.random.randint(0, 2, (N, 2)), np.random.normal(5, 1, (N, 1))]), columns=['male', 'edu', 'wage'] ) def groupby_ngroup(): df.groupby(['male', 'edu']).ngroup() def foo(): pass basemem = max(memory_usage(proc=foo)) tic = time.time() mem = max(memory_usage(proc=groupby_ngroup)) toc = time.time() - tic stats.loc[N, 'basemem'] = basemem stats.loc[N, 'groupby_mem'] = mem stats.loc[N, 'time'] = toc stats['mem_ratio'] = stats.eval('groupby_mem/basemem') stats time basemem groupby_mem mem_ratio 10000 0.037834 104.781250 105.359375 1.005517 100000 0.051785 108.187500 113.125000 1.045638 1000000 0.143642 128.156250 182.437500 1.423555 10000000 0.644650 334.148438 820.183594 2.454549 100000000 6.074531 2422.585938 7095.437500 2.928869 </code></pre> 为什么我对这个组标识符感兴趣？因为我想创建使用pandas <code>groupby</code>函数的列，比如使用<code>.map</code>方法的<code>groupby.mean</code>，而不是占用大量内存和时间的<code>groupby.transform</code>。此外，<code>.map</code>方法可用于<code>dask</code>数据帧，因为<code>dask</code>当前不支持<code>.transform</code>。对于<code>"group_id"</code>列，我可以简单地执行<code>means = df.groupby(['group_id'])['wage'].mean()</code>和<code>df['mean_wage'] = df['group_id'].map(means)</code>来执行<code>transform</code>的工作。你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

不使用<code>ngroup</code>，而是编写我们自己的函数来创建<code>group_id</code>列怎么样？你知道吗 下面是一段代码片段，它似乎提供了更好的性能： <pre><code>from memory_profiler import memory_usage import time import pandas as pd import numpy as np N_values = [10**k for k in range(4, 9)] stats = pd.DataFrame(index=N_values, dtype=float, columns=['time', 'basemem', 'groupby_mem']) for N in N_values: df = pd.DataFrame( np.hstack([np.random.randint(0, 2, (N, 2)), np.random.normal(5, 1, (N, 1))]), columns=['male', 'edu', 'wage'] ) def groupby_ngroup(): #df.groupby(['male', 'edu']).ngroup() df['group_id'] = 2*df.male + df.edu def foo(): pass basemem = max(memory_usage(proc=foo)) tic = time.time() mem = max(memory_usage(proc=groupby_ngroup)) toc = time.time() - tic stats.loc[N, 'basemem'] = basemem stats.loc[N, 'groupby_mem'] = mem stats.loc[N, 'time'] = toc stats['mem_ratio'] = stats.eval('groupby_mem/basemem') stats time basemem groupby_mem mem_ratio 10000 0.117921 2370.792969 79.761719 0.033643 100000 0.026921 84.265625 84.324219 1.000695 1000000 0.067960 130.101562 130.101562 1.000000 10000000 0.220024 308.378906 536.140625 1.738577 100000000 0.751135 2367.187500 3651.171875 1.542409 </code></pre> 本质上，我们使用列是数字的事实，并将它们视为二进制数。<code>group_id</code>应为十进制等效值。你知道吗 将其缩放为三列可以得到类似的结果。为此，请将数据帧初始化替换为以下内容： <pre><code>df = pd.DataFrame( np.hstack([np.random.randint(0, 2, (N, 3)), np.random.normal(5, 1, (N, 1))]), columns=['male', 'edu','random1', 'wage'] ) </code></pre> 组id函数： <pre><code>def groupby_ngroup(): df['group_id'] = 4*df.male + 2*df.edu + df.random1 </code></pre> 测试结果如下： <pre><code> time basemem groupby_mem mem_ratio 10000 0.050006 78.906250 78.980469 1.000941 100000 0.033699 85.007812 86.339844 1.015670 1000000 0.066184 147.378906 147.378906 1.000000 10000000 0.322198 422.039062 691.179688 1.637715 100000000 1.233054 3167.921875 5183.183594 1.636146 </code></pre>

一种高效的内存创建列的方法，该列指示一组列中值的唯一组合

1 个回答

相关Python问题