数据帧组内整数序列的上采样

df = pd.DataFrame([ ['Team A', pd.datetime(2017, 12, 1), 0, 2] ,['Team A', pd.datetime(2017, 12, 1), 2, 1] ,['Team A', pd.datetime(2017, 12, 1), 4, 1] ,['Team A', pd.datetime(2017, 12, 8), 3, 2] ,['Team B', pd.datetime(2017, 12, 1), 0, 1] ,['Team B', pd.datetime(2017, 12, 1), 2, 3] ,['Team B', pd.datetime(2017, 12, 8), 1, 3] ,['Team B', pd.datetime(2017, 12, 8), 3, 2] ] , columns=['Team', 'LeadWeek', 'ConversionWeek', 'Conversions'] )

Team LeadWeek ConversionWeek Conversions 0 Team A 2017-12-01 0 2.0 1 Team A 2017-12-01 1 0.0 2 Team A 2017-12-01 2 1.0 3 Team A 2017-12-01 3 0.0 4 Team A 2017-12-01 4 1.0 5 Team A 2017-12-08 0 0.0 6 Team A 2017-12-08 1 0.0 7 Team A 2017-12-08 2 0.0 8 Team A 2017-12-08 3 2.0 9 Team A 2017-12-08 4 0.0 10 Team B 2017-12-01 0 1.0 11 Team B 2017-12-01 1 0.0 12 Team B 2017-12-01 2 3.0 13 Team B 2017-12-01 3 0.0 14 Team B 2017-12-01 4 0.0 15 Team B 2017-12-08 0 0.0 16 Team B 2017-12-08 1 3.0 17 Team B 2017-12-08 2 0.0 18 Team B 2017-12-08 3 2.0 19 Team B 2017-12-08 4 0.0

import pandas as pd import numpy as np import itertools as it df = pd.DataFrame([ ['Team A', pd.datetime(2017, 12, 1), 0, 2] ,['Team A', pd.datetime(2017, 12, 1), 2, 1] ,['Team A', pd.datetime(2017, 12, 1), 4, 1] ,['Team A', pd.datetime(2017, 12, 8), 3, 2] ,['Team B', pd.datetime(2017, 12, 1), 0, 1] ,['Team B', pd.datetime(2017, 12, 1), 2, 3] ,['Team B', pd.datetime(2017, 12, 8), 1, 3] ,['Team B', pd.datetime(2017, 12, 8), 3, 2] ] , columns=['Team', 'LeadWeek', 'ConversionWeek', 'Conversions'] ) ConversionWeek = np.linspace(0, 4, 5, dtype=int) Team = df['Team'].unique() LeadWeek = df['LeadWeek'].unique() scaffold_raw = [] for i in it.product(Team, LeadWeek, ConversionWeek): scaffold_raw.append(i) scaffold = pd.DataFrame(scaffold_raw, columns=['Team', 'LeadWeek', 'ConversionWeek']) new_frame = scaffold.merge(df, how='left') new_frame = new_frame.sort_values(by=['Team', 'LeadWeek', 'ConversionWeek']).reset_index(drop=True) new_frame['Conversions'].fillna(0, inplace=True)

1条回答

网友

1楼 · 发布于 2024-05-19 15:21:23

通过传递pd.MultiIndex-

idx = pd.MultiIndex.from_product(
      [df.Team.unique(), df.LeadWeek.unique(), np.arange(5)]
)   

v = df.set_index(['Team', 'LeadWeek', 'ConversionWeek'])\
      .reindex(idx)\
      .fillna(0)\
      .reset_index()

v.columns = df.columns    
v

      Team   LeadWeek  ConversionWeek  Conversions
0   Team A 2017-12-01               0          2.0
1   Team A 2017-12-01               1          0.0
2   Team A 2017-12-01               2          1.0
3   Team A 2017-12-01               3          0.0
4   Team A 2017-12-01               4          1.0
5   Team A 2017-12-08               0          0.0
6   Team A 2017-12-08               1          0.0
7   Team A 2017-12-08               2          0.0
8   Team A 2017-12-08               3          2.0
9   Team A 2017-12-08               4          0.0
10  Team B 2017-12-01               0          1.0
11  Team B 2017-12-01               1          0.0
12  Team B 2017-12-01               2          3.0
13  Team B 2017-12-01               3          0.0
14  Team B 2017-12-01               4          0.0
15  Team B 2017-12-08               0          0.0
16  Team B 2017-12-08               1          3.0
17  Team B 2017-12-08               2          0.0
18  Team B 2017-12-08               3          2.0
19  Team B 2017-12-08               4          0.0

相关问题更多 >

编程相关推荐

热门问题

热门文章