Pandasagg和应用功能有什么区别？

by_species.apply(f) #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #0 5.1 3.5 1.4 0.2 setosa #1 4.9 3.0 1.4 0.2 setosa #2 4.7 3.2 1.3 0.2 setosa #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #0 5.1 3.5 1.4 0.2 setosa #1 4.9 3.0 1.4 0.2 setosa #2 4.7 3.2 1.3 0.2 setosa #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #50 7.0 3.2 4.7 1.4 versicolor #51 6.4 3.2 4.5 1.5 versicolor #52 6.9 3.1 4.9 1.5 versicolor #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #100 6.3 3.3 6.0 2.5 virginica #101 5.8 2.7 5.1 1.9 virginica #102 7.1 3.0 5.9 2.1 virginica #Out[33]: #Species #setosa 1 #versicolor 1 #virginica 1 #dtype: int64

by_species.agg(f) #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #0 5.1 3.5 1.4 0.2 setosa #1 4.9 3.0 1.4 0.2 setosa #2 4.7 3.2 1.3 0.2 setosa #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #50 7.0 3.2 4.7 1.4 versicolor #51 6.4 3.2 4.5 1.5 versicolor #52 6.9 3.1 4.9 1.5 versicolor #<class 'pandas.core.frame.DataFrame'> # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #100 6.3 3.3 6.0 2.5 virginica #101 5.8 2.7 5.1 1.9 virginica #102 7.1 3.0 5.9 2.1 virginica #Out[34]: # Sepal.Length Sepal.Width Petal.Length Petal.Width #Species #setosa 1 1 1 1 #versicolor 1 1 1 1 #virginica 1 1 1 1

3条回答

网友

1楼 · 编辑于 2024-09-28 20:56:51

当使用apply to a groupby时，我遇到了.apply将返回分组列。文档中有一个注释（pandas.pydata.org/pandas-docs/stable/groupby.html）：

"...Thus the grouped columns(s) may be included in the output as well as set the indices."

.aggregate将不返回分组列。

网友

2楼 · 编辑于 2024-09-28 20:56:51

apply将函数应用于每个组（您的Species）。您的函数返回1，因此您最终为3个组中的每个组返回1个值。

agg为每个组聚合每个列（feature），因此每个组的每个列都有一个值。

一定要阅读^{}文档，它们非常有用。还有很多教程在网上流传。

网友

3楼 · 编辑于 2024-09-28 20:56:51

（注意：这些比较与DataframeGroupby对象相关）

与.apply()相比，使用.agg()对于DataFrame GroupBy对象的一些可能的优点是：

.agg()提供了一次应用多个函数或将函数列表传递给每个列的灵活性。
同时，将不同的函数同时应用于数据帧的不同列。

这意味着您可以在每次操作中对每一列都有很大的控制权。

以下是详细信息的链接：http://pandas.pydata.org/pandas-docs/version/0.13.1/groupby.html

然而，apply函数可以被限制为一次对数据帧的每列应用一个函数。因此，您可能需要反复调用apply函数来调用同一列的不同操作。

下面是对DataframeGroupBy对象的.apply()与.agg()的一些示例比较：

给定以下数据帧：

In [261]: df = pd.DataFrame({"name":["Foo", "Baar", "Foo", "Baar"], "score_1":[5,10,15,10], "score_2" :[10,15,10,25], "score_3" : [10,20,30,40]})

In [262]: df
Out[262]: 
   name  score_1  score_2  score_3
0   Foo        5       10       10
1  Baar       10       15       20
2   Foo       15       10       30
3  Baar       10       25       40

让我们首先使用.apply()：查看操作

In [263]: df.groupby(["name", "score_1"])["score_2"].apply(lambda x : x.sum())
Out[263]: 
name  score_1
Baar  10         40
Foo   5          10
      15         10
Name: score_2, dtype: int64

In [264]: df.groupby(["name", "score_1"])["score_2"].apply(lambda x : x.min())
Out[264]: 
name  score_1
Baar  10         15
Foo   5          10
      15         10
Name: score_2, dtype: int64

In [265]: df.groupby(["name", "score_1"])["score_2"].apply(lambda x : x.mean())
Out[265]: 
name  score_1
Baar  10         20.0
Foo   5          10.0
      15         10.0
Name: score_2, dtype: float64

现在，看一下使用.agg（）毫不费力的相同操作：

In [276]: df.groupby(["name", "score_1"]).agg({"score_3" :[np.sum, np.min, np.mean, np.max], "score_2":lambda x : x.mean()})
Out[276]: 
              score_2 score_3               
             <lambda>     sum amin mean amax
name score_1                                
Baar 10            20      60   20   30   40
Foo  5             10      10   10   10   10
     15            10      30   30   30   30

因此，与.apply()相比，.agg()在处理DataFrameGroupBy对象时非常方便。但是，如果只处理纯数据帧对象，而不处理数据帧GroupBy对象，则apply()可能非常有用，因为apply()可以沿数据帧的任何轴应用函数。

（例如：axis = 0表示使用默认模式的.apply(),按列操作，而在处理纯数据帧对象时，axis = 1表示按行操作）。

相关问题更多 >

编程相关推荐

热门问题

热门文章