以四种不同的方式聚合数据

Customer Date Amount Angus 2009-07-18 $76.46 Bruno 2009-07-21 $68.66 Danno 2009-07-25 $73.52 Chapp 2009-07-11 $56.04 Chapp 2009-07-21 $11.30 Frank 2009-07-07 $52.86 Chapp 2009-07-09 $97.82 Danno 2009-07-11 $84.98 (etc. for thousands of lines)

2条回答

网友

1楼 · 编辑于 2024-06-02 12:21:20

好吧，我已经弄明白了。首先，我们创建一个事务字段，其中包含要求和的个数：

df["Trans"] = len(df)*[1]

我们按客户分组：

cust_gp = df.groupby("Customer")

第一个最简单：

cust_gp.sum()

四也不难：

cust_gp.max()

2号和3号很棘手。。。我找到了一个解决方案，似乎与我的测试数据。按客户和日期对数据进行排序，然后按每个客户的第一个进行聚合：

df.sort(["Customer","Date"]).groupby("Customer").first()
df.sort(["Customer","Date"]).groupby("Customer").last()

…但是当我在我的大数据集上运行它时，我被告知我最近的一些事务发生在上一次事务之前。这毫无意义。你知道吗

原来日期字段是作为文本导入的！所以，完整的解决方案：

df.Date = pd.to_datetime(df.Date)  # Date field should be date, not text
df = df.sort(["Customer","Date"]) 
cust_gp = df.groupby("Customer")

total_df     = cust_gp.sum()   # 1
largest_df   = cust_gp.max()   # 2
first_df     = cust_gp.first() # 3
last_df      = cust_gp.last()  # 4

我对此很满意，除了“礼物”一栏，我确信这不是以最优雅的方式实现的。你知道吗

网友

2楼 · 编辑于 2024-06-02 12:21:20

我认为DataFrame是一个很好的数据结构。每当您设置一组“split-apply-combine”的分析步骤时，Pandas就非常出色。您可以编写一个函数，假设您只有一个客户，并返回一个Series，就像您正在寻找的那样。你知道吗

import pandas as pd
def trans_count(DF):
    return pd.Series({'count': len(DF),
                     'total': sum(DF['Amount'])})

然后使用groupby和apply：

yourDF.groupby('Customer').apply(trans_count)

但是，由于每个新的DataFrames都是单个客户的摘要，因此我建议编写一个函数，可以在一个Series中返回所有所需的结果。你知道吗

未通过我的手机测试！

相关问题更多 >

编程相关推荐

热门问题

热门文章