与大Pandas的互相关（时滞相关）？

import pandas as pd import numpy as np dfdates1 = pd.date_range('01/01/1980', '01/01/2000', freq = 'MS') dfdata1 = (np.random.random_integers(-30,30,(len(dfdates1)))/10.0) #My real data is from measurements, but random between -3 and 3 is fitting df1 = pd.DataFrame(dfdata1, index = dfdates1) dfdates2 = pd.date_range('03/01/1990', '02/01/2013', freq = 'MS') dfdata2 = (np.random.random_integers(-30,30,(len(dfdates2)))/10.0) df2 = pd.DataFrame(dfdata2, index = dfdates2)

bigdates = pd.date_range('01/01/1940', '01/01/2015', freq = 'MS') big1 = pd.DataFrame(index = bigdates) big2 = pd.DataFrame(index = bigdates) big1 = pd.concat([big1, df1],axis = 1) big2 = pd.concat([big2, df2],axis = 1)

In [451]: corr_coeff_0 = big1[0].corr(big2[0]) In [452]: corr_coeff_0 Out[452]: 0.030543266378853299 In [453]: big2_shift = big2.shift(1) In [454]: corr_coeff_1 = big1[0].corr(big2_shift[0]) In [455]: corr_coeff_1 Out[455]: 0.020788314779320523

corr_coeff_0 = df1['Data'].corr(df2['Data']) df1_1month = df1.shift(1) corr_coeff_1 = df1_1month['Data'].corr(df2['Data']) df1_6month = df1.shift(6) corr_coeff_6 = df1_6month['Data'].corr(df2['Data']) ...and so on

3条回答

网友

1楼 · 编辑于 2024-10-06 12:29:53

为了建立安德烈的答案-如果你只关心（滞后的）与目标的相关性，但想测试各种滞后（例如，看看哪个滞后的相关性最高），你可以这样做：

lagged_correlation = pd.DataFrame.from_dict(
    {x: [df[target].corr(df[x].shift(-t)) for t in range(max_lag)] for x in df.columns})

这样，每一行对应一个不同的滞后值，每一列对应一个不同的变量（其中一个是目标本身，给出了自相关）。

网友

2楼 · 编辑于 2024-10-06 12:29:53

据我所知，没有一个内置的方法能完全满足您的要求。但是，如果您查看pandas系列方法autocorr的源代码，就会发现您的想法是正确的：

def autocorr(self, lag=1):
    """
    Lag-N autocorrelation

    Parameters
    ----------
    lag : int, default 1
        Number of lags to apply before performing autocorrelation.

    Returns
    -------
    autocorr : float
    """
    return self.corr(self.shift(lag))

所以一个简单的时间相关的互协方差函数

def crosscorr(datax, datay, lag=0):
    """ Lag-N cross correlation. 
    Parameters
    ----------
    lag : int, default 0
    datax, datay : pandas.Series objects of equal length

    Returns
    ----------
    crosscorr : float
    """
    return datax.corr(datay.shift(lag))

如果你想看看每个月的相互关系，你可以

 xcov_monthly = [crosscorr(datax, datay, lag=i) for i in range(12)]

网友

3楼 · 编辑于 2024-10-06 12:29:53

有一种更好的方法：在调用corr（）之前，可以先创建一个移位了数据帧的函数。

将此数据帧获取为示例：

d = {'prcp': [0.1,0.2,0.3,0.0], 'stp': [0.0,0.1,0.2,0.3]}
df = pd.DataFrame(data=d)

>>> df
   prcp  stp
0   0.1  0.0
1   0.2  0.1
2   0.3  0.2
3   0.0  0.3

移动其他列（目标列除外）的函数：

def df_shifted(df, target=None, lag=0):
    if not lag and not target:
        return df       
    new = {}
    for c in df.columns:
        if c == target:
            new[c] = df[target]
        else:
            new[c] = df[c].shift(periods=lag)
    return  pd.DataFrame(data=new)

假设你的目标是比较prcp（降水变量）和stp（大气压力）

如果你现在这样做的话：

>>> df.corr()
      prcp  stp
prcp   1.0 -0.2
stp   -0.2  1.0

但如果移动了1（一）个周期，则所有其他列都保持目标（prcp）：

df_new = df_shifted(df, 'prcp', lag=-1)

>>> print df_new
   prcp  stp
0   0.1  0.1
1   0.2  0.2
2   0.3  0.3
3   0.0  NaN

注意，现在stp列在period处向上移动一个位置，因此如果调用corr（），将是：

>>> df_new.corr()
      prcp  stp
prcp   1.0  1.0
stp    1.0  1.0

所以，你可以用滞后-1，-2，-n！！

相关问题更多 >

编程相关推荐

热门问题

热门文章