按重现日期分组

+-------------------+-------------+---------+-------+ | Show | Week_ending | Theatre | gross | +-------------------+-------------+---------+-------+ | Mamma Mia | 05/01/2020 | T1 | 100 | | Mamma Mia | 12/01/2020 | T1 | 200 | | Mamma Mia | 19/01/2020 | T1 | 150 | | Shrek The Musical | 19/01/2020 | T2 | 100 | | Mamma Mia | 11/08/2019 | T3 | 100 | | Mamma Mia | 18/08/2019 | T3 | 100 | | Mamma Mia | 27/12/2009 | T1 | 100 | | Mamma Mia | 03/10/2010 | T1 | 100 | | Mamma Mia | 10/01/2010 | T1 | 100 | +-------------------+-------------+---------+-------+

+-------------------+---------+------------+ | Show | Theatre | mean_gross | +-------------------+---------+------------+ | Mamma Mia | T1 | 100 | | Shrek The Musical | T2 | 100 | | Mamma Mia | T3 | 100 | +-------------------+---------+------------+

1条回答

网友

1楼 · 发布于 2024-10-01 22:44:24

基本上，您需要创建另一列来标记日期更改超过7天的情况

import pandas as pd

df = pd.DataFrame({'Show':['Mamma Mia', 'Mamma Mia', 'Mamma Mia', 'Shrek The Musical',
                   'Mamma Mia', 'Mamma Mia', 'Mamma Mia', 'Mamma Mia', 'Mamma Mia'] , 
                   'Week_ending':['05/01/2020', '12/01/2020', '19/01/2020', '19/01/2020', '11/08/2019', '18/08/2019', '27/12/2009', '03/10/2010', '10/01/2010'],
                   'Theatre':['T1', 'T1', 'T1', 'T2', 'T3', 'T3', 'T1', 'T1','T1'],
                  'gross':[100, 200, 150, 100, 100, 100, 100, 100, 100]})

# Change `Week_ending` to datetime
df['Week_ending'] = pd.to_datetime(df['Week_ending'], format="%d/%m/%Y")

# sort
df = df.sort_values(['Show', 'Theatre', 'Week_ending'])

# find the difference in days between two consequitive dates within the same group
df['days_diff'] = df.groupby(['Show', 'Theatre'])['Week_ending'].diff().dt.days.fillna(0)
# Check if the days difference is more than 7 (days)
df['days_diff'] = df['days_diff'] > 7 

# create a key column that increment by 1 everytime the days are more than 7
df['key'] = df.groupby(['Show', 'Theatre'])['days_diff'].cumsum()

# resulting dataframe
df_final = df.groupby(['Show', 'Theatre', 'key'])[['gross']].mean().reset_index().drop(columns=['key'])

df_final

+         -+    -+      +
|       Show        | Theatre | mean_gross |
+         -+    -+      +
| Mamma Mia         | T1      |        100 |
| Mamma Mia         | T1      |        100 |
| Mamma Mia         | T1      |        100 |
| Mamma Mia         | T1      |        150 |
| Mamma Mia         | T3      |        100 |
| Shrek The Musical | T1      |        100 |
+         -+    -+      +

相关问题更多 >

编程相关推荐

热门问题

热门文章