Pandas：合并数据帧但求和重叠列问题的回答

Pandas：合并数据帧但求和重叠列

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我读了很多关于<code>merge()</code>和<code>join()</code>方法的帖子，并尝试用这些方法解决自己的问题，但没有找到解决方案。在 我有一个非常大的数据文件（.csv），其中包含各种ID的每小时消耗量。我想把每个月每个身份证的消费总额加起来。在 由于内存限制，我需要使用<code>read_csv</code>分块处理每小时消耗的文件（使用<code>chunk_size</code>选项），并在几个月内为ID加载消耗的数据帧，例如： <pre><code>df1 = Month Dec Nov ID XXX 4.0 1.0 YYY 8.0 3.0 ZZZ 4.0 1.0 df2 = Month Dec Nov Oct ID AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 YYY 5.0 5.0 0.0 </code></pre> 此帖子的生成者： ^{pr2}$ 请注意，<code>0.0</code>和{<cd7>}的消耗是不同的。<code>0.0</code>表示当月至少有一个消耗读数{<cd6>}，但{<cd7>}表示根本没有记录消耗值，在这种情况下，不能假定为0。就我的目的而言，这种差异必须保持鲜明。 因为数据文件是分块处理的，所以有一些ID出现在多个数据帧中，例如<code>YYY</code>，对于这些ID，有时月份也会重叠，例如，<code>Nov</code>表示ID <code>YYY</code>。在这种情况下，上半月的消费在<code>df1</code>中，下半月在{<cd15>}中。在 因此，为了合计消耗量，我需要按“ID”和重叠的“Months”中的sum值合并这些数据帧。在 直接求和数据帧产生许多nan： <pre><code>df1 + df2 = Month Dec Nov Oct ID AAA NaN NaN NaN BBB NaN NaN NaN XXX NaN NaN NaN YYY 13.0 8.0 NaN ZZZ NaN NaN NaN </code></pre> 我假设这是因为当对<code>df1</code>的id/Months进行求和时，它返回一个NaN。在 外部合并生成重叠月份的后缀列： <pre><code>df1.merge(df2,how='outer',on='ID') = Month Dec_x Nov_x Dec_y Nov_y Oct ID XXX 4.0 1.0 NaN NaN NaN YYY 8.0 3.0 5.0 5.0 0.0 ZZZ 4.0 1.0 NaN NaN NaN AAA NaN NaN 1.0 7.0 9.0 BBB NaN NaN 0.0 NaN 2.0 </code></pre> 我也不能让<code>combine_first</code>做我想做的事。在 我想要的是中间的东西，看起来像这样： <pre><code> Month Dec Nov Oct ID XXX 4.0 1.0 NaN YYY 13.0 8.0 0.0 ZZZ 4.0 1.0 NaN AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 </code></pre> 其中重叠月份的总和为<code>x + NaN = x</code>、<code>NaN + y = y</code>和{<cd21>}。 <hr/> 我可以看到一个解决方案，即进行合并，然后求和重叠列，忽略nan： <pre><code>df3 = df1.merge(df2,how='outer',on='ID',suffixes=['','_x']) overlapping_months_sufx = df3.columns.values[df3.columns.str.endswith('_x')] for mnth_sufx in overlapping_months_sufx: mnth = mnth_sufx[:-2] df3[mnth][df3[mnth_sufx].notnull()] = df3[mnth].fillna(0) + df3[mnth_sufx] df3=df3.drop(columns=mnth_sufx) df3 = Month Dec Nov Oct ID XXX 4.0 1.0 NaN YYY 13.0 8.0 0.0 ZZZ 4.0 1.0 NaN AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 </code></pre> 考虑到这个数据集的大小，最好能用最有效的方法来聚合所有这些数据。有没有更好的方法，也许是一步到位？在 谢谢，克里斯

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这是一个尝试。如果我理解正确，请留言。在 给予： <pre><code>>>> df1 Month Dec Nov ID XXX 4.0 1.0 YYY 8.0 3.0 ZZZ 4.0 1.0 >>> df2 Month Dec Nov Oct ID AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 YYY 5.0 5.0 0.0 </code></pre> 解决方案： ^{pr2}$ <hr/> 说明： 串联只是将<code>df2</code>放在<code>df1</code>之下。在 <pre><code>>>> cat = pd.concat([df1, df2]) >>> cat Dec Nov Oct ID XXX 4.0 1.0 NaN YYY 8.0 3.0 NaN ZZZ 4.0 1.0 NaN AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 YYY 5.0 5.0 0.0 </code></pre> <code>reset_index</code>将索引移到列中。在 <pre><code>>>> cat = cat.reset_index() >>> cat ID Dec Nov Oct 0 XXX 4.0 1.0 NaN 1 YYY 8.0 3.0 NaN 2 ZZZ 4.0 1.0 NaN 3 AAA 1.0 7.0 9.0 4 BBB 0.0 NaN 2.0 5 YYY 5.0 5.0 0.0 </code></pre> 我这样做的目的是有一个名为<code>'ID'</code>的列，我可以根据该列对其他值进行分组。<code>groupby('ID', sort=False)</code>在<code>'ID'</code>列中创建共享相同值的行组（并且<code>sort=False</code>确保最终结果中的行排序不匹配您的输出）。在 我们可以这样检查组大小： <pre><code>>>> cat.groupby('ID', sort=False).size() ID XXX 1 YYY 2 ZZZ 1 AAA 1 BBB 1 dtype: int64 </code></pre> 如您所见，我们只有一组大小为2的组，因为<code>'YYY'</code>ID是唯一重复的。在 <code>sum(min_count=1)</code>的工作原理是这样的：每个组中的值根据其列进行汇总。参数<code>min_count=1</code>确保所有<code>NaN</code>值的一系列相加后得到<code>NaN</code>。在 <pre><code>>>> cat.groupby('ID', sort=False).sum(min_count=1) Dec Nov Oct ID XXX 4.0 1.0 NaN YYY 13.0 8.0 0.0 ZZZ 4.0 1.0 NaN AAA 1.0 7.0 9.0 BBB 0.0 NaN 2.0 </code></pre> 演示<code>min_count</code>： <pre><code>>>> s = pd.Series([np.nan, np.nan]) >>> s 0 NaN 1 NaN dtype: float64 >>> >>> s.sum() 0.0 >>> s.sum(min_count=1) nan >>> s[0] = 1 >>> s 0 1.0 1 NaN dtype: float64 >>> s.sum() 1.0 >>> s.sum(min_count=1) 1.0 >>> s.sum(min_count=2) nan </code></pre>

Pandas：合并数据帧但求和重叠列

1 个回答

相关Python问题