大Pandas分组，平均值的计算

import pandas as pd url="http://www.esapubs.org/archive/ecol/E084/094/MOMv3.3.txt" mammalian_data = pd.read_csv(url, delimiter="\t", header=None, names= ['continent', 'status', 'order', 'family', 'genus', 'species', 'log mass', 'combined mass', 'reference']) AF_extant = mammalian_data.groupby(["continent", "status"]).get_group(("AF","extant")) print(AF_extant["combined mass"].mean()) AF_extinct = mammalian_data.groupby(["continent", "status"]).get_group(("AF","extinct")) print(AF_extinct["combined mass"].mean())

1条回答

网友

1楼 · 发布于 2024-05-20 08:21:15

import pandas as pd
url="http://www.esapubs.org/archive/ecol/E084/094/MOMv3.3.txt"
mammalian_data = pd.read_csv(
    url, delimiter="\t", header=None, 
    names=['continent', 'status', 'order', 'family', 'genus',
           'species', 'log mass', 'combined mass',
           'reference'])

result = mammalian_data.groupby(["continent", "status"])['combined mass'].mean()
result = result.unstack('status')
result['diff'] = result['extinct']-result['extant']
result = result[['extant', 'extinct', 'diff']]

收益率

status           extant        extinct           diff
continent                                            
AF         2.220823e+04  970038.461538  947830.232208
AUS        1.691833e+04  188355.555556  171437.228736
Af        -9.990000e+02            NaN            NaN
EA         2.114960e+04            NaN            NaN
Insular    7.757171e+03   81912.131034   74154.960145
Oceanic    8.238885e+06            NaN            NaN
SA         3.864696e+03  973072.402597  969207.706264

然后可以使用^{}将result写入CSV。你知道吗

mammalian_data.groupby(["continent", "status"])['combined mass'].mean()计算所有组的所有平均值：

In [35]: mammalian_data.groupby(["continent", "status"])['combined mass'].mean()
Out[35]: 
continent  status      
AF         extant          2.220823e+04
           extinct         9.700385e+05
           historical      1.475138e+05
AUS        extant          1.691833e+04
           extinct         1.883556e+05
           historical      2.653043e+03
           introduction    1.797469e+05
Af         extant         -9.990000e+02
EA         extant          2.114960e+04
           historical      2.014170e+05
Insular    extant          7.757171e+03
           extinct         8.191213e+04
           historical      8.433233e+04
Oceanic    extant          8.238885e+06
SA         extant          3.864696e+03
           extinct         9.730724e+05
Name: combined mass, dtype: float64

这个系列有一个2级多索引。水平为continent和status。要将status索引级别移动到列，请使用^{} method：

In [36]: mammalian_data.groupby(["continent", "status"])['combined mass'].mean().unstack()
Out[36]: 
status           extant        extinct     historical   introduction
continent                                                           
AF         2.220823e+04  970038.461538  147513.750000            NaN
AUS        1.691833e+04  188355.555556    2653.043478  179746.852941
Af        -9.990000e+02            NaN            NaN            NaN
EA         2.114960e+04            NaN  201417.000000            NaN
Insular    7.757171e+03   81912.131034   84332.326000            NaN
Oceanic    8.238885e+06            NaN            NaN            NaN
SA         3.864696e+03  973072.402597            NaN            NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章