正则化解决过拟合问题详解大数据

关于正则化,以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述:

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
正则化符合奥卡姆剃刀(Occam’s razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的”正则化“(又称为”惩罚“,penalty)。
正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化,也有其他形式的正则化,他们的作用也不同):
什么情况下出现过拟合:
  当你拟合的函数中,一些特征权重阶数越高时,过度拟合的情况越有可能发生,反之阶数越小,过拟合发生概率越小,甚至会欠拟合。
  比如有三个拟合函数:
    a+ a1x1+ a2x2 
    a+ a1x1+ a2x2 + a3x12 + a4x22
    a+ a1x1+ a2x2 + a3x12 + a4x2+ a5x13 + a6x23
  则最后这个过拟合的可能最高。

 正则化:特征全部保留,但特征系数进行最小优化。
     设一般情况下的成本函数为costFucntion(a,x,y)
     为了时特征系数减小,以使axj变小,新的成本函数为 costFunction_reg(a,x,y) = costFunction(a,x,y) + sum(aj2
  我们将这种处理叫做正则化

  新增的正则化项为 a02 + a12 + … + an2,  惯例上不要a02这项(他是1的系数),但即使加上效果影响不大。


正则化的线性回归问题
     成本函数:costFunction(a,X,y) = 1/2m *sum((h(a,X)-y).^2), 其中h(a,X)=Xa;
          正则化后:costFunctionReg(a,X,y) = costFunction(a,X,y) lambda*sum(aj2)
     梯度下降法:aj = aj – 1/m *alpha * ( h(a,X)-y ) * Xj
          正则化后:aj = aj – 1/m * alpha * ( h(a,X)-y ) * X – 1/m * alpha * lambda * aj
     正规方程组解法 a = (XT*X)-1*XT*y

          正则化后:a = (XT*X – lambda * I )-1*XT*y


logistic分类问题过拟合解决
  成本函数:costFunction(ha(x),y) = -y*log( ha(x) ) – (1-y)*log( 1- ha(x))
    正则化后:costFunctionReg(ha(x),y) = costFunction(ha(x),y)  +  lambda*sum(aj2)
  梯度下降法:aj =aj – 1/m*(ha(x)-y )* Xj;
    正则化后:aj =aj – 1/m*(ha(x)-y )* Xj -1/m*lambda*a


原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9514.html

(0)
上一篇 2021年7月19日
下一篇 2021年7月19日

相关推荐

发表回复

登录后才能评论