如何按多个列分组并聚合不同列上的差异？

date county state cnt_a cnt_b 2020-06-13 Bergen New Jersey 308 11 2020-06-14 Bergen New Jersey 308 11 2020-06-15 Bergen New Jersey 320 15 2020-06-12 Union New Jersey 100 3 2020-06-13 Union New Jersey 130 4 2020-06-14 Union New Jersey 150 5 2020-06-12 Bronx New York 200 100 2020-06-13 Bronx New York 210 200

date county state cnt_a cnt_b daydiff_a daydiff_b 2020-06-13 Bergen New Jersey 308 11 0 0 2020-06-14 Bergen New Jersey 308 11 0 0 2020-06-15 Bergen New Jersey 320 15 12 4 2020-06-12 Union New Jersey 100 3 0 0 2020-06-13 Union New Jersey 130 4 30 1 2020-06-14 Union New Jersey 150 5 20 1 2020-06-12 Bronx New York 200 100 0 0 2020-06-13 Bronx New York 210 200 10 100

1条回答

网友

1楼 · 发布于 2024-06-26 00:26:03

对df进行排序很重要，因为df.groupby将被排序。如果df未首先排序，则.groupby中的联接列的顺序将与df的顺序不同。
- 一定要df，按'state'、'country'和'date'的顺序，但是.groupby中的'date'列被忽略
.groupby在'state'和'country'上，并将.diff聚合到所需的列
fillna和.join{
}到groupby对象，基于索引。
- 指定rsuffix，或使用.rename更改列标题

import pandas as pd

# setup the test dataframe
data = {'date': ['2020-06-13', '2020-06-14', '2020-06-15', '2020-06-12', '2020-06-13', '2020-06-14', '2020-06-12', '2020-06-13'],
        'county': ['Bergen', 'Bergen', 'Bergen', 'Union', 'Union', 'Union', 'Bronx', 'Bronx'],
        'state': ['New Jersey', 'New Jersey', 'New Jersey', 'New Jersey', 'New Jersey', 'New Jersey', 'New York', 'New York'],
        'cnt_a': [308, 308, 320, 100, 130, 150, 200, 210],
        'cnt_b': [11, 11, 15, 3, 4, 5, 100, 200]}

df = pd.DataFrame(data)

# set the date column to a datetime format
df.date = pd.to_datetime(df.date)

# sort the values
df = df.sort_values(['state', 'county', 'date'])

# groupby and join back to dataframe df
df = df.join(df.groupby(['state', 'county'])[['cnt_a', 'cnt_b']].diff().fillna(0), rsuffix='_diff')

# display(df)
        date  county       state  cnt_a  cnt_b  cnt_a_diff  cnt_b_diff
0 2020-06-13  Bergen  New Jersey    308     11         0.0         0.0
1 2020-06-14  Bergen  New Jersey    308     11         0.0         0.0
2 2020-06-15  Bergen  New Jersey    320     15        12.0         4.0
3 2020-06-12   Union  New Jersey    100      3         0.0         0.0
4 2020-06-13   Union  New Jersey    130      4        30.0         1.0
5 2020-06-14   Union  New Jersey    150      5        20.0         1.0
6 2020-06-12   Bronx    New York    200    100         0.0         0.0
7 2020-06-13   Bronx    New York    210    200        10.0       100.0

相关问题更多 >

编程相关推荐

热门问题

热门文章