为datafram中的每个ID创建一个dateTime

timestampHour object_id value 2016/1/1 00:00 1 2 2016/1/1 00:00 3 1 2016/1/1 01:00 1 1 2016/1/1 01:00 2 3 2016/1/1 02:00 2 3 2016/1/1 02:00 3 2

timestampHour object_id value 2016/1/1 00:00 1 2 2016/1/1 00:00 2 null 2016/1/1 00:00 3 1 2016/1/1 01:00 1 1 2016/1/1 01:00 2 3 2016/1/1 01:00 3 null 2016/1/1 02:00 1 null 2016/1/1 02:00 2 3 2016/1/1 02:00 3 2

2条回答

网友

1楼 · 编辑于 2024-10-01 04:47:46

使用pivot_table和unstack：

df.pivot_table(
    index='object_id',  columns='timestampHour', values='value'
).unstack().rename('value').reset_index()

    timestampHour  object_id  value
0  2016/1/1 00:00          1    2.0
1  2016/1/1 00:00          2    NaN
2  2016/1/1 00:00          3    1.0
3  2016/1/1 01:00          1    1.0
4  2016/1/1 01:00          2    3.0
5  2016/1/1 01:00          3    NaN
6  2016/1/1 02:00          1    NaN
7  2016/1/1 02:00          2    3.0
8  2016/1/1 02:00          3    2.0

要了解这一点的原因，可以查看中间的pivot_table：

timestampHour  2016/1/1 00:00  2016/1/1 01:00  2016/1/1 02:00
object_id
1                         2.0             1.0             NaN
2                         NaN             3.0             3.0
3                         1.0             NaN             2.0

如果没有为object_id和timestampHour的组合找到值，则将NaN添加到表中。当您使用unstack时，这些NaN会被保留，这样您就可以得到所需的结果，并表示缺少的值

网友
2楼 · 编辑于 2024-10-01 04:47:46

这也是两个水平的笛卡尔积This question详细介绍了针对大型数据集优化产品性能的方法
import pandas as pd id_cols = ['timestampHour', 'object_id'] idx = pd.MultiIndex.from_product(df[id_cols].apply(pd.Series.unique).values.T, names=id_cols) df.set_index(id_cols).reindex(idx).reset_index()
输出：
timestampHour object_id value 0 2016/1/1 00:00 1 2.0 1 2016/1/1 00:00 3 1.0 2 2016/1/1 00:00 2 NaN 3 2016/1/1 01:00 1 1.0 4 2016/1/1 01:00 3 NaN 5 2016/1/1 01:00 2 3.0 6 2016/1/1 02:00 1 NaN 7 2016/1/1 02:00 3 2.0 8 2016/1/1 02:00 2 3.0

输出：

相关问题更多 >

编程相关推荐

热门问题

热门文章