如何在大Pandas身上有效地展开日期跨度？

import pandas as pd def full_data(dataframe): allframe = pd.DataFrame() for i in dataframe.index: newframe = pd.DataFrame() newframe['dates'] = pd.date_range(dataframe.iloc[i].start, dataframe.iloc[i].end, freq = 'D') newframe['name'] = dataframe.iloc[i]['name'] newframe['address'] = dataframe.iloc[i]['address'] allframe = allframe.append(newframe) if i%1000 == 0: print i return allframe attendance_records = full_data(attendance_records)

2条回答

网友

1楼 · 编辑于 2024-06-25 22:37:17

对日期进行日期运算，不需要填写缺失的日期。然后按名称分组并计算天数。在

from datetime import timedelta

data = pd.read_csv(StringIO('''Bobby,   101 1st Street,  9/1/2014,     9/3/2014'''), 
                   names=['Name', 'Address', 'Start', 'End'], parse_dates=[2, 3])
#add a day to get the number of days inclusive
data["Days"] = (data.End - data.Start) + timedelta(days=1)
data.groupby('name').sum()["Days"]

网友

2楼 · 编辑于 2024-06-25 22:37:17

pandas函数append对于较大的数据帧来说可能会很慢。相反，我建议将newframes存储在python列表中，而不是使用只附加所有帧一次的concat函数。在

import pandas as pd
def full_data(dataframe):
    allframes = []
    for i in dataframe.index:
        newframe = pd.DataFrame()
        newframe['dates'] = pd.date_range(dataframe.iloc[i].start, dataframe.iloc[i].end, freq = 'D')
        newframe['name'] = dataframe.iloc[i]['name']
        newframe['address'] = dataframe.iloc[i]['address']            
        allframes.append(newframe)
    return concat(allframes)

注意，这还没有经过测试。在

相关问题更多 >

编程相关推荐

热门问题

热门文章