用Pandas填充多索引数据框中缺失的日期

In [10]: vlr Out[10]: data tipoOP qtd ... flxCx flxCx_USD pmAtual_USD ticker ... JBSS3.SA 2020-03-06 C 4.0 ... -86.390000 NaN NaN WEGE3.SA 2020-08-27 C 3.0 ... -198.050000 NaN NaN ITUB4.SA 2020-09-09 C 8.0 ... -195.180000 NaN NaN WEGE3.SA 2020-09-09 V -3.0 ... 193.150000 NaN NaN ITSA4.SA 2020-09-18 C 33.0 ... -297.430000 NaN NaN ... ... ... ... ... ... ... ARZZ3.SA 2021-06-01 C 2.0 ... -174.610000 NaN NaN CP 2021-06-02 C 1.0 ... -417.103785 -81.55 81.55 HSY 2021-06-02 C 1.0 ... -884.843100 -173.00 173.00 ARKQ 2021-06-02 V -2.0 ... 836.650400 163.60 NaN JPM 2021-06-02 C 1.0 ... -853.745724 -166.92 166.92

In [12]: vlr_full Out[12]: data ticker 2020-03-06 JBSS3.SA 4.0 2020-08-27 WEGE3.SA 3.0 2020-09-09 ITUB4.SA 8.0 WEGE3.SA 0.0 2020-09-18 ITSA4.SA 33.0 2021-06-01 PRIO3.SA 50.0 2021-06-02 ARKQ 0.0 CP 1.0 HSY 1.0 JPM 1.0 Name: qtdAtual, Length: 125, dtype: float64

In [12]: vlr_full Out[12]: data ticker 2020-03-06 ABEV3.SA 0.0 AMD 0.0 ARKQ 0.0 ARRZ3.SA 0.0 CP 0.0 HSY 0.0 ITUB4.SA 0.0 ITSA4.SA 0.0 JBSS3.SA 4.0 ... ... ... 2020-03-07 ABEV3.SA 0.0 AMD 0.0 ARKQ 0.0 ARRZ3.SA 0.0 CP 0.0 HSY 0.0 ITUB4.SA 0.0 ITSA4.SA 0.0 JBSS3.SA 4.0 ... ... ... ... ... ... 2021-06-17 ABEV3.SA 45 AMD 5 ARKQ 0 ARRZ3.SA 12 CP 1 HSY 1 ITUB4.SA 0.0 ITSA4.SA 139 JBSS3.SA 0.0

In [29]:idx Out[29]: DatetimeIndex(['2020-03-06', '2020-03-07', '2020-03-08', '2020-03-09', '2020-03-10', '2020-03-11', '2020-03-12', '2020-03-13', '2020-03-14', '2020-03-15', ... '2021-06-08', '2021-06-09', '2021-06-10', '2021-06-11', '2021-06-12', '2021-06-13', '2021-06-14', '2021-06-15', '2021-06-16', '2021-06-17'], dtype='datetime64[ns]', length=469, freq='D')

In [30]:vlr_full.index.unique(level=1) Out[30]: Index(['JBSS3.SA', 'WEGE3.SA', 'ITUB4.SA', 'ITSA4.SA', 'CPFE3.SA', 'TAEE11.SA', 'VIVT4.SA', 'OIBR3.SA', 'TAEE4.SA', 'EGIE3.SA', 'SAPR11.SA', 'TIMS3.SA', 'EQTL3.SA', 'VIVT3.SA', 'ABEV3.SA', 'HGLG11.SA', 'LEVE3.SA', 'RAIL3.SA', 'XPLG11.SA', 'TAEE3.SA', 'ARKQ', 'ARZZ3.SA', 'GME', 'AMD', 'DIS', 'EZTC3.SA', 'FLRY3.SA', 'RIO', 'FTM', 'JALL3.SA', 'PRIO3.SA', 'BLAU3.SA', 'CP', 'HSY', 'JPM'], dtype='object', name='ticker')

2条回答

网友

1楼 · 编辑于 2024-09-28 03:16:17

从看起来像这样的vlr_full开始：

vlr_full
                   qtdActual
data       ticker           
2021-01-02 STACK         3.0
           OVER          2.0
2021-01-04 OVER          5.0
           FLOW          4.0
2021-01-06 STACK         6.0

执行以下操作

# Change this to your own idx
idx = pd.date_range('2021-01-01', '2021-01-07', freq='D')
(
    vlr_full
    .unstack('ticker')
    .reindex(idx)
    .ffill()
    .fillna(0.0)
    .stack('ticker')
)

哪些产出：

                   qtdActual
           ticker           
2021-01-01 FLOW          0.0
           OVER          0.0
           STACK         0.0
2021-01-02 FLOW          0.0
           OVER          2.0
           STACK         3.0
2021-01-03 FLOW          0.0
           OVER          2.0
           STACK         3.0
2021-01-04 FLOW          4.0
           OVER          5.0
           STACK         3.0
2021-01-05 FLOW          4.0
           OVER          5.0
           STACK         3.0
2021-01-06 FLOW          4.0
           OVER          5.0
           STACK         6.0
2021-01-07 FLOW          4.0
           OVER          5.0
           STACK         6.0

网友

2楼 · 编辑于 2024-09-28 03:16:17

看看here，将.reindex与多索引一起使用

比如：

vlr_full.reindex( pd.MultiIndex.from_product([idx, 
"your_ticker_set"], names=['data', 'ticker']), fill_value=0)

通过MultiIndex.unique(level=1)获取your_ticker_set

相关问题更多 >

编程相关推荐

热门问题

热门文章