<p>两个相关的问题和答案</p>
<p><a href="https://stackoverflow.com/questions/40935624/differences-in-linear-regression-in-r-and-python/40951198#40951198">Differences in Linear Regression in R and Python</a></p>
<p><a href="https://stackoverflow.com/questions/63657458/statsmodels-with-partly-identified-model">Statsmodels with partly identified model</a></p>
<p>1)在什么情况下,无论协方差矩阵是否奇异,计算OLS都是有用的</p>
<p>即使某些参数未被识别,且未被“任意”唯一解从无限可能解中选取,但某些结果静态不受非识别的影响,主要是可估计线性组合、预测和r平方</p>
<p>即使并非所有参数都单独识别,也会识别一些参数的线性组合。例如,我们仍然可以测试单向分类变量中的所有均值是否相等。这些都是可估计的函数,即使在奇点和原因下,statsmodels从其前体包继承了<code>pinv</code>行为。然而,statsmodels没有从参数估计的奇异协方差矩阵中识别<code>estimable functions</code>的功能</p>
<p>对于解释变量的任何值,我们都可以得到一个唯一的预测,如果完美共线持续存在,该预测仍然有用</p>
<p>一些汇总和推断统计数据(如Rsquared)与唯一参数的选择方式无关。这有时很方便,例如在诊断和规格测试中使用,其中LM测试可以从rsquared计算出来</p>
<p>到2)它作为系数输出什么</p>
<p>Moore-Penrose逆估计的参数可以解释为对称惩罚或正则化估计。当我们有岭回归且惩罚权重为零时,摩尔-彭罗斯解也会得到。(我不记得我在哪里读到的。)</p>
<p>此外,在一些奇异设计的情况下,不确定性只影响某些参数。尽管我们在推断这些参数时必须小心,但其他参数仍然可能被识别,并且不受完全共线部分的影响</p>
<p>软件包基本上有3个选项来处理单一情况</p>
<ul>
<li>引发异常并拒绝计算任何内容</li>
<li>删除一些变量,问题是删除哪些变量</li>
<li>切换到包含广义逆的惩罚解</li>
</ul>
<p>statsmodels选择3主要是因为变量的对称处理。R和Stata在许多模型中选择2(我认为很难预测哪个变量丢失)</p>
<p>对称处理的一个原因是,它使得在多个数据集中比较相同的回归变得更容易,如果在使用案例2时不总是删除相同的变量,那么这将更加困难</p>