用Pandas填充多索引数据框中缺失的日期

2024-09-28 03:16:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个像这样的数据框

In [10]: vlr
Out[10]: 
               data tipoOP   qtd  ...       flxCx  flxCx_USD pmAtual_USD
ticker                            ...                                   
JBSS3.SA 2020-03-06      C   4.0  ...  -86.390000        NaN         NaN
WEGE3.SA 2020-08-27      C   3.0  ... -198.050000        NaN         NaN
ITUB4.SA 2020-09-09      C   8.0  ... -195.180000        NaN         NaN
WEGE3.SA 2020-09-09      V  -3.0  ...  193.150000        NaN         NaN
ITSA4.SA 2020-09-18      C  33.0  ... -297.430000        NaN         NaN
            ...    ...   ...  ...         ...        ...         ...
ARZZ3.SA 2021-06-01      C   2.0  ... -174.610000        NaN         NaN
CP       2021-06-02      C   1.0  ... -417.103785     -81.55       81.55
HSY      2021-06-02      C   1.0  ... -884.843100    -173.00      173.00
ARKQ     2021-06-02      V  -2.0  ...  836.650400     163.60         NaN
JPM      2021-06-02      C   1.0  ... -853.745724    -166.92      166.92

然后我在做:

vlr_full = vlr.groupby('data')
vlr_full = vlr_full.apply(holding.ord_ativo).drop(columns=['data'])
vlr_full = vlr_full['qtdAtual']

要获取vlr_fullqtdAtual列是当天拥有的资产数量,累积):

In [12]: vlr_full
Out[12]: 
data        ticker  
2020-03-06  JBSS3.SA     4.0
2020-08-27  WEGE3.SA     3.0
2020-09-09  ITUB4.SA     8.0
            WEGE3.SA     0.0
2020-09-18  ITSA4.SA    33.0

2021-06-01  PRIO3.SA    50.0
2021-06-02  ARKQ         0.0
            CP           1.0
            HSY          1.0
            JPM          1.0
Name: qtdAtual, Length: 125, dtype: float64

(qtdAtual是指“拥有的股份”及其由vlr中“qtd”列的股票报价人计算的总和)

我有这样一个DatetimeIndex

idx = pd.date_range(first_day,end=yesterday,freq='D')

这给了我买东西的第一天,直到昨天

我的目标是用缺失的日期填充vlr_full“数据”级索引,并且对于每个日期,都有一个位于vlr的所有股票代码的索引。如果股票在给定日期没有交易,我将保留以前的值(如果尚未交易,则保留0)。因此,我计划使用yfinance模块获取历史报价数据,并将其作为新列插入(乘以我当时拥有的数量)。在那之后我会策划一些事情

我试过这样的东西:

vlr_full.reindex(idx)

但是,显然它不起作用(ValueError:无法处理非唯一的多索引!)。我不确定如何继续,我尝试了一些相关的问题,但无法将它们应用到我的问题中。我确信有一些单行代码可以解决这个问题,但我在不断学习

至于我正在寻找的输出,它将类似于:

In [12]: vlr_full
Out[12]: 
data        ticker  
2020-03-06  ABEV3.SA     0.0
            AMD          0.0
            ARKQ         0.0
            ARRZ3.SA     0.0
            CP           0.0
            HSY          0.0
            ITUB4.SA     0.0
            ITSA4.SA     0.0
            JBSS3.SA     4.0
...         ...          ...
2020-03-07  ABEV3.SA     0.0
            AMD          0.0
            ARKQ         0.0
            ARRZ3.SA     0.0
            CP           0.0
            HSY          0.0
            ITUB4.SA     0.0
            ITSA4.SA     0.0
            JBSS3.SA     4.0
...           ...        ...
...           ...        ...
2021-06-17  ABEV3.SA     45
            AMD          5
            ARKQ         0
            ARRZ3.SA     12
            CP           1
            HSY          1
            ITUB4.SA     0.0
            ITSA4.SA     139
            JBSS3.SA     0.0

因此,对于每个日期,从2020-03-06(第一个日期)开始到昨天(2021-06-17,从今天开始),我希望有一个指数水平,通过我在某个点交易过的所有股票代码,并在该日期放置所拥有的股票(如果之前未交易,则为零)。 我的问题是在第一层填充缺失的日期,然后在第二层填充股票代码符号

请注意,在输出示例中,我在2020-03-06只有4份JBSS3.SA股票,仅此而已,直到2020-08-27,这一点都是正确的,同时仍然将所有其他股票归为0份

EDIT1:

我试过这个:

vlr_full.reindex(pd.MultiIndex.from_product([idx,vlr_full.index.unique(level=1)], names=['data', 'ticker']), fill_value=0)

但它给了我:

ValueError: cannot handle a non-unique multi-index!

idx是:

In [29]:idx
Out[29]: 
DatetimeIndex(['2020-03-06', '2020-03-07', '2020-03-08', '2020-03-09',
               '2020-03-10', '2020-03-11', '2020-03-12', '2020-03-13',
               '2020-03-14', '2020-03-15',
               ...
               '2021-06-08', '2021-06-09', '2021-06-10', '2021-06-11',
               '2021-06-12', '2021-06-13', '2021-06-14', '2021-06-15',
               '2021-06-16', '2021-06-17'],
              dtype='datetime64[ns]', length=469, freq='D')

而{}是:

In [30]:vlr_full.index.unique(level=1)
Out[30]: 
Index(['JBSS3.SA', 'WEGE3.SA', 'ITUB4.SA', 'ITSA4.SA', 'CPFE3.SA', 'TAEE11.SA',
       'VIVT4.SA', 'OIBR3.SA', 'TAEE4.SA', 'EGIE3.SA', 'SAPR11.SA', 'TIMS3.SA',
       'EQTL3.SA', 'VIVT3.SA', 'ABEV3.SA', 'HGLG11.SA', 'LEVE3.SA', 'RAIL3.SA',
       'XPLG11.SA', 'TAEE3.SA', 'ARKQ', 'ARZZ3.SA', 'GME', 'AMD', 'DIS',
       'EZTC3.SA', 'FLRY3.SA', 'RIO', 'FTM', 'JALL3.SA', 'PRIO3.SA',
       'BLAU3.SA', 'CP', 'HSY', 'JPM'],
      dtype='object', name='ticker')

Tags: indatasananoutcpfullticker
2条回答

从看起来像这样的vlr_full开始:

vlr_full
                   qtdActual
data       ticker           
2021-01-02 STACK         3.0
           OVER          2.0
2021-01-04 OVER          5.0
           FLOW          4.0
2021-01-06 STACK         6.0

执行以下操作

# Change this to your own idx
idx = pd.date_range('2021-01-01', '2021-01-07', freq='D')
(
    vlr_full
    .unstack('ticker')
    .reindex(idx)
    .ffill()
    .fillna(0.0)
    .stack('ticker')
)

哪些产出:

                   qtdActual
           ticker           
2021-01-01 FLOW          0.0
           OVER          0.0
           STACK         0.0
2021-01-02 FLOW          0.0
           OVER          2.0
           STACK         3.0
2021-01-03 FLOW          0.0
           OVER          2.0
           STACK         3.0
2021-01-04 FLOW          4.0
           OVER          5.0
           STACK         3.0
2021-01-05 FLOW          4.0
           OVER          5.0
           STACK         3.0
2021-01-06 FLOW          4.0
           OVER          5.0
           STACK         6.0
2021-01-07 FLOW          4.0
           OVER          5.0
           STACK         6.0

看看here,将.reindex与多索引一起使用

比如:

vlr_full.reindex( pd.MultiIndex.from_product([idx, 
"your_ticker_set"], names=['data', 'ticker']), fill_value=0)

通过MultiIndex.unique(level=1)获取your_ticker_set

相关问题 更多 >

    热门问题