如何将带有小时列的`pandas.DataFrame`融合并在15分钟间隔内分割

timestamp value 0 2019-01-01 00:00:00 0.1 1 2019-01-01 00:15:00 0.1 2 2019-01-01 00:30:00 0.1 3 2019-01-01 00:45:00 0.1 4 2019-01-01 01:00:00 0.2 5 2019-01-01 01:15:00 0.2 6 2019-01-01 01:30:00 0.2 7 2019-01-01 01:45:00 0.2 ... 16 2019-01-03 00:00:00 0.2 17 2019-01-03 00:15:00 0.2 18 2019-01-03 00:30:00 0.2 19 2019-01-03 00:45:00 0.2 20 2019-01-03 01:00:00 0.4 21 2019-01-03 01:15:00 0.4 22 2019-01-03 01:30:00 0.4 23 2019-01-03 01:45:00 0.4

27 2017-01-28 hour_01 34.90 28 2017-01-29 hour_01 36.04 29 2017-01-30 hour_01 36.51 ... ... ... 16760 2018-12-02 hour_23 51.50 16761 2018-12-03 hour_23 54.00 16762 2018-12-04 hour_23 53.87

2条回答

网友

1楼 · 编辑于 2024-10-02 14:25:19

基于melt、set_index和ffill的解决方案：

df = df.melt(id_vars=['date'], var_name='hour')
df['timestamp'] = pd.to_datetime(df['date']) + pd.to_timedelta(df['hour'].str[4:].astype(int) - 1, unit='h')
df = df.set_index(pd.DatetimeIndex(df['timestamp']))
df = df.drop(columns=['timestamp', 'date', 'hour'])
df = df.resample('15T').ffill()
df = df.reset_index()

结果：

              timestamp  value
0   2019-01-01 00:00:00    0.1
1   2019-01-01 00:15:00    0.1
2   2019-01-01 00:30:00    0.1
3   2019-01-01 00:45:00    0.1
4   2019-01-01 01:00:00    0.2
..                  ...    ...
192 2019-01-03 00:00:00    0.2
193 2019-01-03 00:15:00    0.2
194 2019-01-03 00:30:00    0.2
195 2019-01-03 00:45:00    0.2
196 2019-01-03 01:00:00    0.4

网友

2楼 · 编辑于 2024-10-02 14:25:19

也许您也可以从melt开始，但除非出于某种原因需要使用melt，否则您可以通过以下方式获得它：

如果还没有，则将'date'设为datetime列。你知道吗
使用groupby和apply可以使用pandas date_range生成所有时间间隔的时间戳，并使用numpy repeat生成每小时值。你知道吗
最后重置索引。你知道吗

翻译成代码是：

df['date'] = pd.to_datetime(df['date'])

ddf = df.groupby('date').apply(lambda row : pd.DataFrame(
      {'timestamp' : pd.date_range(row['date'].iloc[0], periods=4*len(df.columns[1:]), freq='15T'),
       'value' : np.repeat(np.array([row[col].iloc[0] for col in df.columns[1:]]), 4)}))
ddf.reset_index(inplace=True, drop=True)

使用起始数据帧，ddf是：

             timestamp  value
0  2019-01-01 00:00:00    0.1
1  2019-01-01 00:15:00    0.1
2  2019-01-01 00:30:00    0.1
3  2019-01-01 00:45:00    0.1
4  2019-01-01 01:00:00    0.2
5  2019-01-01 01:15:00    0.2
6  2019-01-01 01:30:00    0.2
7  2019-01-01 01:45:00    0.2
8  2019-01-02 00:00:00    0.5
9  2019-01-02 00:15:00    0.5
10 2019-01-02 00:30:00    0.5
11 2019-01-02 00:45:00    0.5
12 2019-01-02 01:00:00    0.3
13 2019-01-02 01:15:00    0.3
14 2019-01-02 01:30:00    0.3
15 2019-01-02 01:45:00    0.3
16 2019-01-03 00:00:00    0.2
17 2019-01-03 00:15:00    0.2
18 2019-01-03 00:30:00    0.2
19 2019-01-03 00:45:00    0.2
20 2019-01-03 01:00:00    0.4
21 2019-01-03 01:15:00    0.4
22 2019-01-03 01:30:00    0.4
23 2019-01-03 01:45:00    0.4

此代码将自动选择在'date'之后有多少列，假设它们都是'hour'列。如果数据帧中混合了其他列，则应将它们从df.columns[1:]中筛选出来。你知道吗

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章