如何在大Pandas中存储多个相关的时间序列

2024-06-28 14:25:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我是熊猫新手,想从专业人士那里得到一些见解。我需要对超过30个时间序列的金融证券的每日开盘价、最高价、最低价和收盘价进行各种统计分析(多元回归、相关等)。每个系列有500-1500天的数据。由于每次分析都着眼于多个证券,我想知道从易用性和效率的角度来看,是否最好将每个时间序列存储在一个单独的数据框中,每个数据框都以日期为索引,还是将它们全部合并到一个具有单个日期索引的单个数据框中,这实际上就是一个三维数据框。如果是后者,有什么关于如何构建它的建议?在

任何想法都值得赞赏。在

我正在努力处理跨多个时区的日内数据,但这对于我的第一个熊猫项目来说有点太多了;这是朝着这个方向迈出的第一步。在


Tags: 数据项目时间序列建议角度证券效率
2条回答

因为您只处理OHLC,所以没有太多数据需要处理,所以这很好。在

对于这些类型的东西,我通常使用多重索引(http://pandas.pydata.org/pandas-docs/stable/indexing.html),第一级是符号,第二级是日期。然后你只需要列OHLC就可以了。在

要访问多索引,请使用.xs函数。在

除非你要把所有的东西都关联起来,否则我的建议是把它放到单独的数据帧中,并把它们都放到字典中,即{“Timeseries1”:df1,“Timeseries 2”:df2…}。然后,当您想将一些时间序列关联在一起时,可以将它们合并并在每个不同的df的列中放置后缀来区分它们。在

也许你对《熊猫》一书作者的这篇演讲感兴趣。在

相关问题 更多 >