如何在python中总结大型数据帧(50列x 2m行)

2024-10-02 02:35:42 发布

您现在位置:Python中文网/ 问答频道 /正文

对于一个项目,我操作数据集中的一些列,然后将这些新创建的列连接回整个数据集,然后在操作的字段上进行汇总。你知道吗

操作和合并没有问题,但是groupby特性不会返回任何结果。我在想我怎么才能知道为什么它什么都不给我。它加载代码,然后将结果打印在Jupyter笔记本中,该笔记本只包含我请求的列,但返回0行。你知道吗

使用groupby功能时,列是否有限制? -我使用40个groupby列和10个字段amount字段进行汇总。你知道吗

有别的我可以试试的吗? -我遇到了一些使用numpy的方法,这在记忆方面可能更有效。但对于40列来说,还没有找到有效的方法来解决这个问题。你知道吗

我在网上搜索过,但找不到任何答案。 我对熊猫还很陌生,所以在深入研究这个话题之前,我只想咨询一下我是否忽略了什么,或者是否有更简单的方法来实现我想要的。你知道吗

因为dataframe有40多列要分组,大约有10个值字段,所以我将它们包含在两个list对象中。 这是我克服的第一个障碍,感谢下面的stackoverflow页面。你知道吗

这些列表随后用于groupby功能。你知道吗

#A way i tried solving this, due to the limitation of only 9 variables if you enter them in your groupby functionality.

groupcolumns = ['aa','ab','ac','ad'] #etc
amountcolumns = ['z1', 'z2', 'z3', 'z4'] #etc

df1 = df.groupby(groupcolumns)[amountcolumns].sum
df1.reset_index()

我希望它会返回一个DataFrame,在groupcolumns上对amount列进行汇总。你知道吗

如果有人能帮我就太好了! 提前谢谢。你知道吗


Tags: 数据项目方法代码功能etc笔记本jupyter
1条回答
网友
1楼 · 发布于 2024-10-02 02:35:42

我注意到40列中有一列只有空值。你知道吗

通过使用df.info(),我从groupby中删除了这个字段,它就像一个符咒。你知道吗

也许很好的分享,这只是在groupby(值),我也有一些空字段,其中包括在总和,这些没有提供任何问题。你知道吗

谢谢@powerPixie!!你知道吗

相关问题 更多 >

    热门问题