如何在时间序列应用程序中进行统计测试

2024-10-02 00:35:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我从我的论文中收到了一份关于使用机器学习进行股票市场预测的反馈,审稿人问了以下问题:

I would like you to statistically test the out-of-sample performance of your methods. Hence 'differ significantly' in the original wording. I agree that some of the figures look awesome visually, but visually, random noise seems to contain patterns. I believe Sortino Ratio is the appropriate statistic to test, and it can be tested by using bootstrap. I.e., a distribution is obtained for both BH and your strategy, and the overlap of these distributions is calculated.

我的问题是,我从来没有对时间序列数据这样做过。我的验证过程使用了一种称为“向前走”的策略,我将数据在时间上移动了11次,生成了11种不同的训练和测试组合,没有重叠。因此,以下是我的问题:

1-根据评审员的要求,最好(或更合适)的统计测试是什么

2-如果我记得很清楚,统计测试需要向量作为输入,对吗?我可以生成一个包含11个sortino比率值(每次行走1个)的向量,然后将它们与基线进行比较吗?或者我应该多次运行代码吗?考虑到审查的时间,恐怕最后的选择是不可行的

那么,在这个时间序列场景中,在统计上比较机器学习方法的正确措施是什么


Tags: andoftheto数据test机器your
1条回答
网友
1楼 · 发布于 2024-10-02 00:35:54

指出random noise seems to contain patterns,这意味着你的图有很好的模式,但它可能是服从[x]分布的随机噪声(即随机均匀噪声),这使得事情不太准确。最好将数据随机分成k组,然后应用Z检验或T检验,成对比较k组

评论员指出Sortino ratio似乎是模棱两可的,因为你的目标是拥有一个机器学习模型,对于预测任务,这意味着,您真正关心的是预测的准确性可靠性,如果您使用的是交叉有效性,在凸优化中,它相当于使用敏感性分析


更新

对于时间序列数据,序列依赖性的问题,在我们有非平稳时间序列数据(低模式)的情况下提出,这似乎不是数据的问题,即使是这样,也可以通过删除趋势来解决,例如,使用<>强> ADF测试,将非文具时间序列转换成文具,也可以考虑使用<强> arima模型< /强>

时移,有时可能有用,但它不被认为是噪声的良好度量,但它可能有助于通过移动数据和提取一些特征来提高模型精度(例如,平均值、窗口大小的方差等)。

没有什么可以阻止你尝试时间变换方法,但是你不能依赖它作为一种精确的测量方法,你仍然需要使用更强大的技术来证明你的统计分析

相关问题 更多 >

    热门问题