多项式Logit模型Python与Stata的不同结果

ses_type prog_type read write math prog ses 0 low Diploma 39.2 40.2 46.2 0 0 1 middle general 39.2 38.2 46.2 1 1 2 high Diploma 44.5 44.5 49.5 0 2 3 low Diploma 43.0 43.0 48.0 0 0 4 middle Diploma 44.5 36.5 45.5 0 1 5 high general 47.3 41.3 47.3 1 2

Iteration 0: log likelihood = -204.09667 Iteration 1: log likelihood = -171.90258 Iteration 2: log likelihood = -170.13513 Iteration 3: log likelihood = -170.11071 Iteration 4: log likelihood = -170.1107 Multinomial logistic regression Number of obs = 200 LR chi2(10) = 67.97 Prob > chi2 = 0.0000 Log likelihood = -170.1107 Pseudo R2 = 0.1665 ------------------------------------------------------------------------------ prog | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 0 | ses | 1 | .6197969 .5059335 1.23 0.221 -.3718146 1.611408 2 | -.5131952 .6280601 -0.82 0.414 -1.74417 .7177799 | read | -.0405302 .0289314 -1.40 0.161 -.0972346 .0161742 write | -.0459711 .0270153 -1.70 0.089 -.09892 .0069779 math | -.0990497 .0331576 -2.99 0.003 -.1640373 -.0340621 _cons | 9.544131 1.738404 5.49 0.000 6.136921 12.95134 -------------+---------------------------------------------------------------- 1 | ses | 1 | -.3350861 .4607246 -0.73 0.467 -1.23809 .5679176 2 | -.8687013 .5363968 -1.62 0.105 -1.92002 .182617 | read | -.0226249 .0264534 -0.86 0.392 -.0744726 .0292228 write | -.011618 .0266782 -0.44 0.663 -.0639063 .0406703 math | -.0591301 .0299996 -1.97 0.049 -.1179283 -.000332 _cons | 5.041193 1.524174 3.31 0.001 2.053866 8.028519 -------------+---------------------------------------------------------------- 2 | (base outcome) ------------------------------------------------------------------------------

data = pd.read_csv("C://Users/Furqan/Desktop/random_data.csv") train_x = np.array(data[['read', 'write', 'math','ses ']]) train_y = np.array(data['prog']) mul_lr = linear_model.LogisticRegression(multi_class='multinomial', solver='newton-cg').fit(train_x, train_y) print(mul_lr.intercept_) print(mul_lr.coef_)

1条回答

网友
1楼 · 发布于 2024-06-26 18:07:10

有几个问题使Stata和sklearn的结果不同：
Stata和sklearn的不同实际预测因子
拟合参数的不同表示
拟合模型时的不同目标函数
我们需要改变这三个条件，以实现类似的产出。在
1。生成虚拟变量
Stata用于线性部分的公式是
prediction = a0 + a1 * [ses==1] + a2 * [ses==2] + a3 * read + a4 * write + a5 * math
反过来，Sklearn对ses的范畴性质一无所知，并试图使用
^{pr2}$
要启用分类预测，需要对数据进行预处理。这是将分类变量包括到sklearn逻辑回归中的唯一可能方法。我发现pd.get_dummies()是最方便的方法。在
下面的代码为ses创建伪变量，然后删除"low"级别，这显然对应于示例中的ses=0：
import pandas as pd, numpy as np from sklearn import linear_model data = pd.read_csv("d1.csv", sep='\t') data.columns = data.columns.str.strip() raw_x = data.drop('prog', axis=1) # making the dummies train_x = pd.get_dummies(raw_x, columns=['ses']).drop('ses_low ', axis=1) print(train_x.columns) train_y = data['prog'] mul_lr = linear_model.LogisticRegression(multi_class='multinomial', solver='newton-cg').fit(train_x, train_y) reorder = [4, 3, 0, 1, 2] # the order in which coefficents show up in Stata print(mul_lr.intercept_) print(mul_lr.coef_[:, reorder])
It输出
['read', 'write', 'math', 'ses_high ', 'ses_middle '] [ 4.67331919 0.19082335 -4.86414254] [[ 0.47140512 -0.08236331 -0.01909793 -0.02680609 -0.04587383] [-0.36381476 -0.33294749 -0.0021255 0.00765828 -0.00703075] [-0.10759035 0.4153108 0.02122343 0.01914781 0.05290458]]
您可以看到Python成功地将sess编码为'ses_high '和{}，但未能生成预期的系数。在
顺便说一下，我已经更改了输出中coef_列的顺序，使其看起来像Stata中的。在
2。重新排列结果
这是因为Stata将第三类结果（prog=='honors '）视为基本结果，并从其余参数中减去所有参数。在Python中，可以通过运行
print(mul_lr.intercept_ - mul_lr.intercept_[-1]) print((mul_lr.coef_ - mul_lr.coef_[-1])[:, reorder])
这给了你
[9.53746174 5.0549659 0. ] [[ 0.57899547 -0.4976741 -0.04032136 -0.0459539 -0.09877841] [-0.25622441 -0.74825829 -0.02334893 -0.01148954 -0.05993533] [ 0. 0. 0. 0. 0. ]]
现在您可以看到参数现在接近Stata给出的值：
Python中截获的（9.53,5.05）vs Stata中的（9.54,5.04）
第一结果系数（0.57，-0.49，…）vs（0.61，-0.51，…）
第二结果系数（-0.25，-0.74，…）vs（-0.33，-0.86，…）
你能看到图案吗？在sklearn中，斜率系数比Stata小（接近于零）。这不是意外！在
3。处理正规化
发生这种情况是因为sklearn有意地将斜率系数缩小到0，方法是将系数的二次惩罚加到它最大化的似然函数上。这使得估计有偏差，但更稳定，即使在严重的多重共线性的情况下。在贝叶斯术语中，这种正则化对应于所有系数的零均值高斯先验。您可以了解更多关于正则化in the wiki。在
在sklearn中，这个二次惩罚由正的C参数控制：它越小，得到的正则化越多。你可以把它看作是每个斜率系数的先验方差。默认值是C=1，但您可以将其增大，如C=1000000，这意味着几乎没有正则化。在这种情况下，输出与Stata的输出几乎相同：
mul_lr2 = linear_model.LogisticRegression( multi_class='multinomial', solver='newton-cg', C=1000000 ).fit(train_x, train_y) print(mul_lr2.intercept_ - mul_lr2.intercept_[-1]) print((mul_lr2.coef_ - mul_lr2.coef_[-1])[:, reorder])
这给了你
[9.54412644 5.04126452 0. ] [[ 0.61978951 -0.51320481 -0.04053013 -0.0459711 -0.09904948] [-0.33508605 -0.86869799 -0.02262518 -0.01161839 -0.05913068] [ 0. 0. 0. 0. 0. ]]
结果仍然有一点不同（比如在小数点后5位），但是如果正则化程度更低，差异填充会进一步缩小。在

1。生成虚拟变量

2。重新排列结果

3。处理正规化

相关问题更多 >

编程相关推荐

热门问题

热门文章