Python+Postgresql：调用数据进行计算的理想方法（滚动/扩展窗口）+多线程？

1条回答

网友

1楼 · 发布于 2024-05-04 00:36:10

让我试着明确地给出答案，并记下我的观察结果。你知道吗

根据你的描述，我想你把每一张股票作为一个变量，并试图在它们之间进行两两线性回归。好消息是这是高度平行的。你所需要做的就是生成所有可能配对的唯一组合，并执行回归，然后只保留那些符合你标准的模型。你知道吗
既然股票是你的变量，我假设行是它们的价格或类似的值，但肯定是一些时间序列数据。如果我的假设是正确的，那么滚动窗口方法就有问题。在创建这些滚动窗口时，您隐式地做的是使用名为bootstrapping的数据采样方法，该方法使用随机但重复的采样。但是由于只是滚动你的数据，你没有使用随机抽样，这可能会给你的回归结果带来问题。最好的情况下，这个模型可能只是训练过度，最坏的情况下，我无法想象。因此，放下这个appraoch。另外，如果它是一个时间序列数据，那么窗口化的整个概念无论如何都是值得怀疑的。你知道吗
由于上述同样的原因，扩大窗户是没有好处的。你知道吗
关于内存和可处理性-我认为这是一个很好的场景，可以使用Spark。它正是为此目的而构建的，并且对python有极好的支持。数百万个数据点对Spark来说没什么大不了的。另外，您将能够大规模并行化您的操作。使用云基础设施还可以让您在可配置性和可扩展性方面获得优势，而不会感到头痛。我不知道为什么人们喜欢使用Jupyter，即使是对于这样的批处理任务，但是如果你执意要使用它，那么PySpark内核也会受到Jupyter的支持。垂直分裂可能是正确的方法。你知道吗

希望这些能回答你的问题。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python+Postgresql：调用数据进行计算的理想方法（滚动/扩展窗口）+多线程？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >