如何选择数据库中的列以调用sklearn中的线性回归（OLS和lasso）

mpg cyl disp hp drat ... qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 ... 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 ... 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 ... 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 ... 19.44 1 0 3 1

2条回答

网友

1楼 · 编辑于 2024-06-25 22:57:12

这里有两种方法——不令人满意，特别是因为一旦回归开始，变量标签似乎就消失了：

import statsmodels.api as sm
import pandas as pd
import statsmodels.formula.api as smf


mtcars = sm.datasets.get_rdataset("mtcars", "datasets", cache=True).data
df = pd.DataFrame(mtcars)

import numpy as np
from sklearn.linear_model import LinearRegression

单变量回归mpg（i.v.）~hp（d.v.）：

lm = LinearRegression()
 
mat = np.matrix(df)
 
lmFit = lm.fit(mat[:,3], mat[:,0])
 
print(lmFit.coef_)
print(lmFit.intercept_)

对于多元回归drat~wt+cyl+carb：

lmm = LinearRegression()
wt = np.array(df['wt'])
cyl = np.array(df['cyl'])
carb = np.array(df['carb'])
stack = np.column_stack((cyl,wt,carb))
stackmat = np.matrix(stack)

lmFit2 = lmm.fit(stackmat,mat[:,4])
print(lmFit2.coef_)
print(lmFit2.intercept_)

网友

2楼 · 编辑于 2024-06-25 22:57:12

您可以尝试statsmodels使用的patsy：

import statsmodels.api as sm
import pandas as pd
import statsmodels.formula.api as smf
from patsy import dmatrix

mtcars = sm.datasets.get_rdataset("mtcars", "datasets", cache=True).data

mat = dmatrix("disp + qsec + C(cyl)", mtcars)

看起来像这样，我们可以省略第一列截取，因为它包含在sklearn中：

mat
 
DesignMatrix with shape (32, 5)
  Intercept  C(cyl)[T.6]  C(cyl)[T.8]   disp   qsec
          1            1            0  160.0  16.46
          1            1            0  160.0  17.02
          1            0            0  108.0  18.61
          1            1            0  258.0  19.44
          1            0            1  360.0  17.02

X = pd.DataFrame(mat[:,1:],columns = mat.design_info.column_names[1:])

from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(X,mtcars['mpg'])

但是model.coef_中的参数名称将不会命名。你只需要把它们编成一个系列来阅读，也许：

pd.Series(model.coef_,index = X.columns)
 
C(cyl)[T.6]   -5.087564
C(cyl)[T.8]   -5.535554
disp          -0.025860
qsec          -0.162425

sklearn线性回归中的Pvalues，没有现成的方法，您可以查看这些answers，也许其中一个就是您正在寻找的

相关问题更多 >

编程相关推荐

热门问题

热门文章