最小二乘拟合

最小二乘的hypothesis为:h_\theta(x^{(i)})=\theta^Tx^{(i)} =\theta_0x_0^{(i)}+\theta_1x_1^{(i)}+\theta_2x_2^{(i)}+...+\theta_nx_n^{(i)}
其中x^{(i)}表示第i个样本,x_{j}^{(i)}表示x^{(i)}的第j个特征。
最小二乘的目标函数为:
J_{(\theta)}=\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^Tx^{(i)})}^2
我们可以通过使\theta沿着其梯度方向进行更新来最小化目标函数。
目标函数对\theta的导数为:
\nabla_{\theta}J=-\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})\cdot{{x^{(i)}}^{T}} =\sum_{i=1}^{m}(\theta^Tx^{(i)}-y^{(i)})\cdot{{x^{(i)}}^{T}}
注意:每一个x^{(i)}都是一个包含多个维度的向量
\theta进行更新可得:
\theta:=\theta-\alpha*\nabla\theta =\theta-\alpha*\sum_{i=1}^{m}(\theta^{T}x^{(i)}-y^{(i)})\cdot{{x^{i}}^{T}}
注意:这里我们使用:=表示赋值的意思,即在每一次迭代的时候,将新的计算得到的\theta赋值给之前的\theta


最小二乘拟合的概率解释
在这里,\hat{y}^{(i)}=\theta^Tx^{(i)}来表示hypothesis的计算结果,y^{(i)}表示真实的样本的target value,假设
\epsilon^{(i)}=\hat{y}^{(i)}-y^{(i)}\thicksim\mathcal N(0, \sigma^{2})
即hypothesiss与真实样本之间的偏差服从标准正太分布:
p(\epsilon^{(i)})=p(\hat{y}^{(i)}-y^{(i)}|x^{(i)};\theta)\thicksim\mathcal N(0,\sigma^{2})
进一步推导可得:
p(\epsilon^{(i)}|x^{(i)};\theta) =\frac{1}{\sqrt{2 \pi} \sigma}exp^{-\frac{(\epsilon ^ {(i)} - 0) ^ 2} {2 \sigma ^ 2}}
因为样本的标签值y^{(i)}是已知的,所以由上式可得:
p(\hat{y} ^ {(i)}|x ^ {(i)} \theta) =\frac{1}{\sqrt{2 \pi} \sigma}{exp^ {-\frac{(\hat{y} ^ {(i)} - y ^ {(i)}) ^ {2}}{2 \sigma ^ {2}}}} =\frac{1}{\sqrt{2 \pi} \sigma}{exp^ {-\frac{(\theta ^ T x ^ {(i)} - y ^ {(i)}) ^ {2}}{2 \sigma ^ {2}}}}
m个样本的似然函数为:
L(\theta)=\prod_{i=1}^{m}p(\hat{y}^{(i)}|x^{(i)};\theta) =\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi}\sigma}exp^{-\frac{(\theta^Tx^{(i)}-y^{(i)})^{2}}{2 \sigma^{2}}}
对似然函数L(\theta)取对数可得:
\begin{equation} \begin{split} l(\theta)&=log(L(\theta))=log\prod_{i=1}^{m}p(\hat{y}^{(i)}|x^{(i)};\theta)\\ &=\sum_{i=1}^{m}log\biggl({p(\hat{y}^{(i)}|x^{(i)};\theta)}\biggr)\\ &=\frac{1}{\sqrt{2 \pi}\sigma}\sum_{i=1}^{m}log(exp^{-\frac{(\theta^Tx^{(i)} -y^{(i)})^{2}}{2 \sigma^{2}}})\\ &=-n\frac{1}{2}\sum_{i=1}^{m}(\theta^Tx^{(i)}-y^{(i)})^{2} \end{split} \end{equation}
其中n=\frac{1}{\sqrt{2 \pi}\sigma^{3}},最大化对数似然函数l(\theta),即:
max\biggl(l(\theta)\biggr) =min\biggl(-l(\theta)\biggr) =min\biggl((\theta^Tx^{(i)}-y^{(i)})^{2}\biggr)
即从假设hypothesis的值与样本真实值之间的偏差服从标准正太分布,并使用最大似然估计,我们同样可以得到均方误差的目标函数。

references:
http://cs229.stanford.edu/notes/cs229-notes1.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容