吴恩达Machine Learning第三周作业——逻辑回归

从第一周的线性回归到逻辑回归,即从连续到离散化的分类模型。线性回归的假设是:$h_\theta(x)=\theta^TX$ 而在逻辑回归中,我们的假设是$h_\theta(x)=g(\theta^TX), g(z) = \frac{1}{1+e^(-z)}$,这样的假设函数代表的含义是:hθ(x)=P(y=1|x;θ) ,即这个分类事件发生的概率。与此同时,之前在线性回归定义的误差函数J(θ)就不能再使用了,因为它是非凸的,梯度下降将得不到最小值。因此我们引入了新的误差函数。

对于数据集比较复杂的数据,我们显然不能再用简单的线性函数的模型,此时我们通过多项式的复杂函数来训练数据。这时我们又会陷入过拟合的情况,此时为了减缓过拟合我们又不得不减少特征,陷入死循环的怪圈。因此,我们提出了正则化这种举措。正则化的思想就是给我们参数引入惩罚,因为我们可以发现,导致模型过拟合的根本原因就在于高阶项的引入,因此我们需要减低一些项的影响,所以在J(θ)中引入lambda*θi^2,同时梯度的变化也需要随之改变。这个lambda的设置是有技巧的,太大,θi会成为影响最大的因素,从而最终θi会趋于0;太小,又起不到正则化的效果。

问题:

1.为什么正则化的惩罚机制不需要惩罚截距项即θ0?

2.关于正则化与归一化的进一步理解等等
《吴恩达Machine Learning第三周作业——逻辑回归》
如图,首先与不正则化相比,会乘上(1-…),因此正则化会让所有的参数减少。其它的理由还带学习深入。
https://www.cnblogs.com/arachis/p/regulazation.html?utm_source=itdadao&utm_medium=referral

3.第一部分和第二部分工作的区别
第一部分只是单纯地求了下grad,在它给定的theta下(分别是全0和全1);第二部分才是真正地进行了梯度下降,只不过是调用的matlab的optimazation下的fminunc函数,只用到了我们求梯度的过程,具体fminunc的实现已经由库写了。

(下午看直播围观了在北大的world final,围观各路神仙打架。毛子真的强)

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注