我希望能够计算出菲律宾每个城市新冠病毒-19病例的增长率。我使用的是卫生部公共病例数据集,其中包括病例ID、病例确诊日期、病例所在城市等
我尝试使用groupby方法将数据分为城市和日期,计算每天的病例数,计算这些计数的累计总和,每日百分比变化,最后是过去14天百分比变化的平均值
我能够做到这些,但我不知道如何将它们再次组合到一个包含城市及其过去14天平均增长率的数据集
以下是我到目前为止的情况:
import pandas as pd
cases_df = pd.read_csv('https://storage.googleapis.com/doh_datadrops/DOH%20Data%20Drop%2020200518.csv',
parse_dates=[5,6,7,9,17])
#cast data to appropriate types for easy handling
for col in ['AgeGroup', 'Sex','RemovalType', 'Admitted', 'RegionRes','ProvRes','CityMunRes',
'CityMuniPSGC','HealthStatus','Quarantined','Pregnanttab']:
cases_df[col] = cases_df[col].astype('category')
for col in ['DateRepConf', 'DateDied', 'DateRecover', 'DateRepRem','DateOnset']:
cases_df[col] = cases_df[col].astype('datetime64')
cases_df.Age = cases_df.Age.astype('Int64')
list_cases_by_city_by_date = cases_df.groupby(['CityMunRes','DateRepConf'])['CaseCode'].count().cumsum().pct_change()
最后一个groupby生成一个多索引列表:
CityMunRes DateRepConf
ABUCAY 2020-01-30 NaN
2020-02-03 NaN
2020-02-05 NaN
2020-03-06 NaN
2020-03-07 NaN
...
ZARRAGA 2020-05-14 0.0
2020-05-15 0.0
2020-05-16 0.0
2020-05-17 0.0
2020-05-18 0.0
Name: CaseCode, Length: 28336, dtype: float64
现在,如果指定城市,我可以使用以下代码计算过去14天的增长率:
list_cases_by_city_by_date.loc['ABUCAY'].tail(14).mean()
0.03571428571428571
但我想要的是一个简单的数据框架,以“citymunser”和“Ave_Growth”作为列,如下所示:
| | City | Ave_Growth |
|---|--------|------------|
| 0 | ABUCAY | 0.03 |
| 1 | Bxxxx | 0.02 |
| 2 | Cxxxx | 0.50 |
| | ... | |
| n | Zxxx | 0.2 |
但我遇到了一个新手。我相信解决办法很简单。:)
请帮忙
谢谢
编辑:更好的解决方案:
这个怎么样?您可以使用您的代码位为每一个创建一个字典,然后将它们全部放入一个数据帧中
编辑:顺便说一句,当我尝试运行您提供的代码时,我在运行时得到
0.75
,而不是0.03571428571428571
相关问题 更多 >
编程相关推荐