我目前正在从事一个涉及财务数据的项目。我有一个数据框架,包含许多基本变量以及许多不同公司的股票回报,如下所示:
year ticker tot_assets return
0 1999 AAPL 10.345 0.1294
1 2000 AAPL 10.988 0.1577
2 2001 AAPL 12.003 0.0782
.. ... ... ... ...
34521 2017 GMBO 0.893 0.2209
34522 2018 GMBO 1.206 0.1001
.. ... ... ... ...
200344 2012 ZZ 3.789 0.0032
200344 2013 ZZ 3.021 -0.0346
我一直试图做的但没有成功的是,根据t-1年最接近的tot_assets
值,将df中的每个公司ticker
与另一个公司匹配。因此,创建两个新列,其中一个列具有匹配公司的ticker
及其在时间t的returns
。所以我们在时间t-1进行匹配,但是报告的返回是时间t的
所以它应该是这样的:
year ticker tot_assets return m_ticker m_return
0 1999 AAPL 10.345 0.1294 AA 0.0890
1 2000 AAPL 10.988 0.1577 AA 0.1666
2 2001 AAPL 12.003 0.0782 TSLA 0.3470
.. ... ... ... ... ... ...
34521 2017 GMBO 0.893 0.2209 AIR 0.0032
34522 2018 GMBO 1.206 0.1001 CECE 0.1123
.. ... ... ... ... ... ...
200344 2012 ZZ 3.789 0.0032 ASKI 0.0432
200344 2013 ZZ 3.021 -0.0346 ASKI 0.0339
我希望我的解释足够清楚:p也许这就是我遇到麻烦的原因!我无法向您展示df,因为它有超过200000个观测值-但我希望上面的概念能有所帮助:)
提前谢谢你
这将为您提供公司的股票行情,该公司的tot_资产与第一年最接近。希望您只需要运行一次就可以创建数据集。否则,您将不得不研究更快的替代方案
相关问题 更多 >
编程相关推荐