与pandas对时数据帧

Time Bin Observations <X> 0 00:00-05:59 [ 1 , ...] 2.3 1 06:00-11:59 [ 4 , ...] 4.6 2 12:00-17:59 [ 3 , ...] 8.5 3 18:00-23:59 [ 2 , ...] 3.1

3条回答

网友

1楼 · 编辑于 2024-06-25 23:40:26

我不确定我是否有最好的答案，但我认为它仍然有效。
首先，我将使用以下示例将datetime64转换为datetime： Converting between datetime, Timestamp and datetime64

然后，如果我们假设您的第一列有datetime，并被称为TimeStamp，我将执行如下操作：

def bin_f(x):
    if x.time() < datetime.time(6):
        return "00:00-05:59"
    elif x.time() < datetime.time(12):
        return "06:00-11:59"
    elif x.time() < datetime.time(18):
        return "12:00-17:59"
    else:
        return "18:00-23:59"

df["Bin"] = df["TimeStamp"].apply(bin_f)
grouped = df.groupby("Bin")
grouped['X'].agg(np.std)

以X作为列的名称。

网友

2楼 · 编辑于 2024-06-25 23:40:26

我发现Mathiou的回答对我的目的很有帮助，但修改如下：

def bin_f(x):
    h = x.time()
    if h < 6:
        return "00:00-05:59"
    elif h < 12:
        return "06:00-11:59"
    elif h < 18:
        return "12:00-17:59"
    else:
        return "18:00-23:59"

网友

3楼 · 编辑于 2024-06-25 23:40:26

每当我将时间序列数据按一个时间范围（这似乎是您在这里所做的）进行分类时，我只需创建一个“一天中的一小时”列并对其进行切片。另外，我通常将索引设置为datetime值……尽管这里不需要这样做。

# assuming your "timestamp" column is labeled ts: 
df['hod'] = [r.hour for r in df.ts]

# now you can calculate stats for each bin
ave = df[ (df.hod>=0) & (df.hod<6) ].mean()

我认为这里有一种使用df.resample的方法，但是对于时间序列中定义不明确的起点/终点，我认为这可能比上面的方法需要更多的关注。

这是你想要的吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章