用回归法填写NaN值

2024-09-28 01:32:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我有x1=工作级别(数字),x2=工作代码(分类)和y=股票价值(数字)。对于3x500的数据集,我在股票价值中有250个NaN值。在

我需要在下面的代码中做些什么来将x2作为一个分类值来读取,然后重新运行程序来找到系数?Data set example

> import pandas as pd from sklearn.linear_model import LinearRegression
> df = pd.read_excel("stats.xlsx")
> df_nonull=df.dropna() X_train = df_nonull[['Job Code','Job Level']]
> y_train = df_nonull[['Stock Value']]
> 
> 
> X_test = df[['Job Code','Job Level']] y_test = df[['Stock Value']]
> 
> regressor = LinearRegression() model=regressor.fit(X_train, y_train)
> # display coefficients print(regressor.coef_)

> print(regressor.coef_)

Tags: 代码importdfmodel分类jobcodetrain
1条回答
网友
1楼 · 发布于 2024-09-28 01:32:00

这是一个简单的模型训练问题。可用的训练数据(观察值)是有股票价值的行;而后面的“真实”数据是没有股票价值的行。在

在这种情况下,分类数据是相当合法的。事实上,您也可以尝试将Job Level声明为category,因为它是离散的;这将使您免于任何线性假设(尽管它也否认Level代码顺序的任何适用性)。在

您的任务是选择一个模型类型来正确地为您的数据提供服务。这需要研究和实验;欢迎来到数据科学。因为您还没有讨论过您的数据形状、密度、连接性、集群等,所以我们可以与您探讨的实在不多。对三个特征的六个观察(注意,职务代码和职务头衔不是100%耦合的)不足以进行有根据的推测。在

试着在你的“线性”回归中加入一些多项式项:也许每个输入都有一个平方项和一个平方根。这通常是第一次尝试这样的任务。在

相关问题 更多 >

    热门问题