如何使用groupby计算大Pandas过去14天的平均值

import pandas as pd cases_df = pd.read_csv('https://storage.googleapis.com/doh_datadrops/DOH%20Data%20Drop%2020200518.csv', parse_dates=[5,6,7,9,17]) #cast data to appropriate types for easy handling for col in ['AgeGroup', 'Sex','RemovalType', 'Admitted', 'RegionRes','ProvRes','CityMunRes', 'CityMuniPSGC','HealthStatus','Quarantined','Pregnanttab']: cases_df[col] = cases_df[col].astype('category') for col in ['DateRepConf', 'DateDied', 'DateRecover', 'DateRepRem','DateOnset']: cases_df[col] = cases_df[col].astype('datetime64') cases_df.Age = cases_df.Age.astype('Int64') list_cases_by_city_by_date = cases_df.groupby(['CityMunRes','DateRepConf'])['CaseCode'].count().cumsum().pct_change()

CityMunRes DateRepConf ABUCAY 2020-01-30 NaN 2020-02-03 NaN 2020-02-05 NaN 2020-03-06 NaN 2020-03-07 NaN ... ZARRAGA 2020-05-14 0.0 2020-05-15 0.0 2020-05-16 0.0 2020-05-17 0.0 2020-05-18 0.0 Name: CaseCode, Length: 28336, dtype: float64

1条回答

网友

1楼 · 发布于 2024-09-25 08:39:30

编辑：更好的解决方案：

list_cases_by_city_by_date.groupby(level=0).apply(lambda x: x.tail(14).mean())

这个怎么样？您可以使用您的代码位为每一个创建一个字典，然后将它们全部放入一个数据帧中

d = {city: list_cases_by_city_by_date.loc[city].tail(14).mean() 
     for city in list_cases_by_city_by_date.index.get_level_values('CityMunRes')}

pd.DataFrame(data=d.values(), index=d.keys(), columns=['mean'])

编辑：顺便说一句，当我尝试运行您提供的代码时，我在运行时得到0.75，而不是0.03571428571428571

list_cases_by_city_by_date.loc['ABUCAY'].tail(14).mean()

相关问题更多 >

编程相关推荐

热门问题

热门文章