SGDRegressor（）不断提高验证性能问题的回答

SGDRegressor（）不断提高验证性能

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

在大约20000个培训记录之后，my<code>SGDRegressor</code>的模型拟合不会增加或降低其在验证集（<code>test</code>）上的性能。即使我尝试将<code>penalty</code>、<code>early_stopping (True/False)</code>或<code>alpha</code>、<code>eta0</code>切换到极高或极低的水平，也不会改变“卡住”验证分数<code>test</code>的行为 <a href="https://i.stack.imgur.com/fu556.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/fu556.png" alt="enter image description here"/></a> 我以前使用过<code>StandardScaler</code>并对数据进行了洗牌以用于训练和测试集 <pre><code>train_test_split(X,y, test_size = 0.3, random_state=85, shuffle=True) print(X_train.shape, X_test.shape) print(y_train.shape, y_test.shape) >>>(336144, 10) (144063, 10) >>>(336144,) (144063,) </code></pre> 我的验证代码有什么问题吗？或者，由于<code>SGDRegressor</code>对训练数据的处理有限制，这种行为是可以解释的吗 <pre><code>from sklearn.linear_model import SGDRegressor from sklearn.metrics import mean_squared_error import pandas import matplotlib.pyplot as plt scores_test = [] scores_train = [] my_rng = range(10,len(X_train),30000) for m in my_rng: print(m) modelSGD = SGDRegressor(alpha=0.00001, penalty='l1') modelSGD.fit(X_train[:m], y_train[:m]) ypred_train = modelSGD.predict(X_train[:m]) ypred_test = modelSGD.predict(X_test) mse_train = mean_squared_error(y_train[:m], ypred_train) mse_test = mean_squared_error(y_test, ypred_test) scores_train.append(mse_train) scores_test.append(mse_test) </code></pre> 如何“强制”<code>SGDRegressor</code>尊重更多的训练数据并更改其在<code>test</code>数据上的性能 编辑： 我试图想象模型在经过30000或300000条记录的训练后，在<code>test</code>上的分数不会改变。这就是我在循环中初始化SGDRegressor的原因，因此它在每次迭代中都是全新训练的 如@Nikaido所问，这些是安装后的模型<code>coef_</code>，<code>intercept_</code>： <pre><code>trainsize: 10, coef: [ 0.81815135 2.2966633 1.61231584 -0.00339933 -3.03094922 0.12757874 -2.60874563 1.52383531 0.3250487 -0.61251297], intercept: [50.77553038] trainsize: 30010, coef: [ 0.19097587 -0.35854903 -0.16142221 0.11281925 -0.66771756 0.55912533 0.90462141 -1.417289 0.50487032 -1.42423654], intercept: [83.28458307] trainsize: 60010, coef: [ 0.09848169 -0.1362008 -0.15825232 -0.4401373 0.31664536 0.04960247 -0.37299047 0.6641436 0.02782047 -1.15355052], intercept: [80.87163096] trainsize: 90010, coef: [-0.00923631 0.5845441 0.28485334 -0.29528061 -0.30643056 1.20320208 1.9723999 -0.47707621 1.25355186 -2.04990825], intercept: [85.17812028] trainsize: 120010, coef: [-0.04959943 -0.15744169 -0.17071373 -0.20829149 -1.38683906 2.18572481 1.43380752 -1.48133799 2.18962484 -3.41135224], intercept: [86.40188522] trainsize: 150010, coef: [ 0.56190926 0.05052168 0.22624504 0.55751301 -0.50829818 1.27571154 1.49847285 -0.15134682 1.30017967 -0.88259823], intercept: [83.69264344] trainsize: 180010, coef: [ 0.17765624 0.1137466 0.15081498 -0.51520765 -1.00811419 -0.13203398 1.28565565 -0.03594421 -0.08053252 -2.31793746], intercept: [85.21824705] trainsize: 210010, coef: [-0.53937513 -0.33872786 -0.44854466 0.70039384 -0.77073389 0.4361326 0.88175392 -0.32460908 0.5141777 -1.5123801 ], intercept: [82.75353293] trainsize: 240010, coef: [ 0.70748011 -0.08992019 0.25365326 0.61999278 -0.29374005 0.25833863 -0.00485613 -0.21211637 0.19286126 -1.09503691], intercept: [85.76414815] trainsize: 270010, coef: [ 0.73787648 0.30155102 0.44013832 -0.2355825 0.26255699 1.55410066 0.4733571 0.85352683 1.4399516 -1.73360843], intercept: [84.19473044] trainsize: 300010, coef: [ 0.04861321 -0.35446415 -0.17774692 -0.1060901 -0.5864299 1.03429399 0.57160049 -0.13900199 1.09189946 -1.26298814], intercept: [83.14797646] trainsize: 330010, coef: [ 0.20214825 0.22605839 0.17022397 0.28191112 -1.05982574 0.74025932 0.04981973 -0.27232538 0.72094765 -0.94875017], intercept: [81.97656309] </code></pre> Edit2: @Nikaido问：这是数据的分布。非常相似的分布式train-/testdata特性来自于原始值，这些原始值是类别（范围1-9）或解构的时间戳，如NumberOfMonth、DayOfWeek、Hours、Minutes。 <code>labels</code>图显示100左右缺乏正态分布。原因是：缺少的值已被每个类别的全球平均值（介于80和95之间）所取代 <a href="https://i.stack.imgur.com/eQEzZ.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/eQEzZ.png" alt="enter image description here"/></a> 此外，我还创建了一个绘图，显示了上面的代码段通过更改以下内容生成的验证缩放： <pre><code>my_rng = range(1000,len(X_train)-200000,2000) </code></pre> SGD围绕最佳值的典型跳跃是可见的。但无论如何，随着训练集记录的增加，考试成绩的趋势没有任何显著的变化。 <a href="https://i.stack.imgur.com/r5O9c.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/r5O9c.png" alt="enter image description here"/></a>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

编辑：关于您的输出，我猜您的结果与验证集非常接近，因为像SGDregressor这样的线性模型往往不适合复杂数据 要了解这一点，可以在每次迭代时检查模型输出的权重。你会发现它们是一样的或者非常接近 为了增强输出的可变性，需要引入非线性和复杂性 您正在获得机器学习中所谓的“偏差”（与“差异”相反） 我想我现在明白了 萨马马尼最后我认为问题在于不合身。事实上，您正在使用数据集的增量大小。模型欠拟合速度相当快（这意味着模型在开始时或多或少地固定在固定模型上） 只有第一次训练为测试集输出不同的结果，因为它或多或少没有达到最终模型 基本的可变性存在于增量训练集中。 简单地说，测试结果是对欠拟合模型性能的更准确估计。增加训练样本最终会使测试和训练的结果接近，而不会有太大的改善 您可以检查培训的增量数据集是否与测试集不同。你做错的是检查所有训练集的数据 <hr/> 首先，为什么要进行增量训练集大小的训练？奇怪的结果是因为您正在以增量方式对数据集进行训练 执行此操作时： <pre><code>for m in my_rng: modelSGD = SGDRegressor(alpha=0.00001, penalty='l1') modelSGD.fit(X_train[:m], y_train[:m]) [...] </code></pre> 您基本上是以增量方式训练您的模型，使用这种增量大小： <pre><code>for m in range(10, 180001, 30000): print(m) 10 30010 60010 90010 120010 150010 </code></pre> 如果您试图进行小批量梯度下降，则应将数据集拆分为独立批次，而不是进行增量批次。大概是这样的： <pre><code>previous = 0 for m in range(30000, 180001, 30000): modelSGD.partial_fit(X_train[previous:m], y_train[previous:m]) previous = m # training set ranges 0 30000 30000 60000 60000 90000 90000 120000 120000 150000 150000 180000 </code></pre> 还要注意的是，我使用的是<code>partial_fit</code>方法，而不是<code>fit</code>（因为我没有从零开始重新训练模型，我只做了一步，梯度下降的迭代），并且我不会每次都初始化一个新模型（我的sgd初始化不在for循环中）。完整代码应如下所示： <pre><code>my_rng = range(0 ,len(X_train), 30000) previous = 0 modelSGD = SGDRegressor(alpha=0.00001, penalty='l1') for m in my_rng: modelSGD.partial_fit(X_train[previous:m], y_train[previous:m]) ypred_train = modelSGD.predict(X_train[previous:m]) ypred_test = modelSGD.predict(X_test) mse_train = mean_squared_error(y_train[previous:m], ypred_train) mse_test = mean_squared_error(y_test, ypred_test) scores_train.append(mse_train) scores_test.append(mse_test) </code></pre> 通过这种方式，您可以模拟一个历元小批量随机梯度。为了创造更多的时代，需要一个外环 从sklearn： <blockquote> SGD allows minibatch (online/out-of-core) learning via the partial_fit method. For best results using the default learning rate schedule, the data should have zero mean and unit variance. </blockquote> 详情<a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor.partial_fit" rel="nofollow noreferrer">here</a>

SGDRegressor（）不断提高验证性能

1 个回答

相关Python问题