计算具有非唯一日期索引的数据帧上的滚动中值

column 2019-01-07 NaN 2019-01-08 NaN 2019-01-08 0.02 2019-01-09 31.45 2019-01-10 NaN 2019-01-10 71.87 2019-01-10 90.18 2019-01-11 NaN 2019-01-12 12.67 2019-01-12 5.68 2019-01-12 11.23 2019-01-12 21.67 2019-01-12 14.77 2019-01-12 5.18 2019-01-13 14.38 2019-01-13 NaN 2019-01-13 71.13 2019-01-13 20.02 2019-01-13 103.10 2019-01-14 NaN 2019-01-15 32.48 2019-01-16 37.37 2019-01-16 31.05 2019-01-16 7.00 2019-01-17 NaN 2019-01-17 39.65 2019-01-18 23.68 2019-01-18 0.08 2019-01-18 41.35 2019-01-19 NaN 2019-01-19 45.85 2019-01-19 3.98 2019-01-19 4.60 2019-01-19 NaN 2019-01-19 NaN 2019-01-20 3.60 2019-01-20 5.03 2019-01-20 15.70

column 2019-01-13 17.40 2019-01-14 17.40 2019-01-15 20.85 2019-01-16 20.85 2019-01-17 20.02 2019-01-18 20.85 2019-01-19 31.05 2019-01-20 19.69

2条回答

网友

1楼 · 编辑于 2024-06-26 01:59:28

如果数据不太长，则可以进行交叉合并：

df['key'] = 1
df = df.reset_index()

(df.merge(df, on='key', suffixes=['','_'])
   .loc[lambda x: x['index'].ge(x['index_']) & 
                  x['index'].sub(x['index_']).le('7D')]
   .groupby('index')['column_'].median()
)

输出：

index
2019-01-07       NaN
2019-01-08     0.020
2019-01-09    15.735
2019-01-10    51.660
2019-01-11    51.660
2019-01-12    13.720
2019-01-13    17.395
2019-01-14    17.395
2019-01-15    20.020
2019-01-16    21.670
2019-01-17    21.670
2019-01-18    20.845
2019-01-19    20.020
2019-01-20    21.850
Name: column_, dtype: float64

网友

2楼 · 编辑于 2024-06-26 01:59:28

rolling对象是可编辑的，它允许这样的解决方案：

# drop NAs and group by date into lists of values
df_per_date = df.dropna().groupby('date').apply(lambda g: g.value.to_list())


# compute medians across windows ('sum' concatenates multiple lists into one list)
medians = [np.median(window.agg(sum)) for window in df_per_date.rolling(5)]


# result
medians = pd.Series(index=df_per_date.index, data=medians)


medians

顺便说一下，我加载的数据如下：

# load the data
df = pd.read_csv(pd.io.common.StringIO("""
2019-01-07         NaN    
2019-01-08         NaN
2019-01-08        0.02
2019-01-09       31.45
2019-01-10         NaN
2019-01-10       71.87
2019-01-10       90.18
2019-01-11         NaN
2019-01-12       12.67
2019-01-12        5.68
2019-01-12       11.23
2019-01-12       21.67
2019-01-12       14.77
2019-01-12        5.18
2019-01-13       14.38
2019-01-13         NaN
2019-01-13       71.13
2019-01-13       20.02
2019-01-13      103.10
2019-01-14         NaN
2019-01-15       32.48
2019-01-16       37.37
2019-01-16       31.05
2019-01-16        7.00
2019-01-17         NaN
2019-01-17       39.65
2019-01-18       23.68
2019-01-18        0.08
2019-01-18       41.35
2019-01-19         NaN
2019-01-19       45.85
2019-01-19        3.98
2019-01-19        4.60
2019-01-19         NaN
2019-01-19         NaN
2019-01-20        3.60
2019-01-20        5.03
2019-01-20       15.70
""".strip()), sep='\s+', names=['date', 'value'], parse_dates=['date'])

相关问题更多 >

编程相关推荐

热门问题

热门文章