Python-Statsmodels中面板数据的线性混合模型和时间自相关

2024-10-02 04:33:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我观察的是烤肉店销售人员之间的轮班,试图了解销售人员在轮班的不同时间内的销售额是否有实质性的差异。具体来说,我试图评估a)在个别轮班时间之间趋势是否显著,以及b)相对于其他一些潜在解释变量,这一趋势如何排列。在

数据集中每个销售人员都有多个班次,长度相同,除以小时。在

例如

model = sm.MixedLM.from_formula("Cookies ~ C(Hour) + CustomerArrivals + Oventemp", BakeSaleData, groups=BakeSaleData["Salesperson"])
result = model.fit()
print(result.summary())

Our Q-Q plot for the residuals:

有人在回顾我的研究时告诉我,我的模型中有大量的自相关,但我不清楚如何弥补这一点。在

我知道在传统的时间序列数据集中,我们可以使用AR(1)和Cochrane Orcutt来考虑自相关项,但是这些时间序列计算通常是在只有一个时间序列的数据集上进行的。在


Tags: 数据model人员时间序列差异result趋势
1条回答
网友
1楼 · 发布于 2024-10-02 04:33:49

statsmodels MixedLM不允许超出随机系数或随机效应的残差直接相关。在

你可以利用statsmodels.GEE这是一个单向面板数据模型,允许更大范围的相关结构,包括AR(1)。对于Gaussian家族,它将类似于MixedLM。然而,它使用的估计方程类似于计量经济学中精确识别的GMM,GEE使用默认的聚类稳健标准误差。具有序列相关误差的假设是解释变量是外生变量。在

这是给吉的一些笔记本。在

标准计量经济学面板数据与科克兰或夸斯温斯顿类似的斯塔塔还没有包括在统计模型中(尽管可能有一个草案版本在附近)。在

相关问题 更多 >

    热门问题