最小二乘拟合

最小二乘的hypothesis为： $h_\theta(x^{(i)})=\theta^Tx^{(i)} =\theta_0x_0^{(i)}+\theta_1x_1^{(i)}+\theta_2x_2^{(i)}+...+\theta_nx_n^{(i)}$
其中 $x^{(i)}$ 表示第 $i$ 个样本， $x_{j}^{(i)}$ 表示 $x^{(i)}$ 的第 $j$ 个特征。
最小二乘的目标函数为：
$J_{(\theta)}=\frac{1}{2}\sum_{i=1}^{m}{(y^{(i)}-\theta^Tx^{(i)})}^2$
我们可以通过使 $\theta$ 沿着其梯度方向进行更新来最小化目标函数。
目标函数对 $\theta$ 的导数为：
$\nabla_{\theta}J=-\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})\cdot{{x^{(i)}}^{T}} =\sum_{i=1}^{m}(\theta^Tx^{(i)}-y^{(i)})\cdot{{x^{(i)}}^{T}}$
注意：每一个 $x^{(i)}$ 都是一个包含多个维度的向量
对 $\theta$ 进行更新可得：
$\theta:=\theta-\alpha*\nabla\theta =\theta-\alpha*\sum_{i=1}^{m}(\theta^{T}x^{(i)}-y^{(i)})\cdot{{x^{i}}^{T}}$
注意：这里我们使用 $:=$ 表示赋值的意思，即在每一次迭代的时候，将新的计算得到的 $\theta$ 赋值给之前的 $\theta$ 。

最小二乘拟合的概率解释
在这里， $\hat{y}^{(i)}=\theta^Tx^{(i)}$ 来表示hypothesis的计算结果， $y^{(i)}$ 表示真实的样本的target value,假设
$\epsilon^{(i)}=\hat{y}^{(i)}-y^{(i)}\thicksim\mathcal N(0, \sigma^{2})$
即hypothesiss与真实样本之间的偏差服从标准正太分布：
$p(\epsilon^{(i)})=p(\hat{y}^{(i)}-y^{(i)}|x^{(i)};\theta)\thicksim\mathcal N(0,\sigma^{2})$
进一步推导可得：
$p(\epsilon^{(i)}|x^{(i)};\theta) =\frac{1}{\sqrt{2 \pi} \sigma}exp^{-\frac{(\epsilon ^ {(i)} - 0) ^ 2} {2 \sigma ^ 2}}$
因为样本的标签值 $y^{(i)}$ 是已知的，所以由上式可得：
$p(\hat{y} ^ {(i)}|x ^ {(i)} \theta) =\frac{1}{\sqrt{2 \pi} \sigma}{exp^ {-\frac{(\hat{y} ^ {(i)} - y ^ {(i)}) ^ {2}}{2 \sigma ^ {2}}}} =\frac{1}{\sqrt{2 \pi} \sigma}{exp^ {-\frac{(\theta ^ T x ^ {(i)} - y ^ {(i)}) ^ {2}}{2 \sigma ^ {2}}}}$
$m$ 个样本的似然函数为：
$L(\theta)=\prod_{i=1}^{m}p(\hat{y}^{(i)}|x^{(i)};\theta) =\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi}\sigma}exp^{-\frac{(\theta^Tx^{(i)}-y^{(i)})^{2}}{2 \sigma^{2}}}$
对似然函数 $L(\theta)$ 取对数可得：
$\begin{equation} \begin{split} l(\theta)&=log(L(\theta))=log\prod_{i=1}^{m}p(\hat{y}^{(i)}|x^{(i)};\theta)\\ &=\sum_{i=1}^{m}log\biggl({p(\hat{y}^{(i)}|x^{(i)};\theta)}\biggr)\\ &=\frac{1}{\sqrt{2 \pi}\sigma}\sum_{i=1}^{m}log(exp^{-\frac{(\theta^Tx^{(i)} -y^{(i)})^{2}}{2 \sigma^{2}}})\\ &=-n\frac{1}{2}\sum_{i=1}^{m}(\theta^Tx^{(i)}-y^{(i)})^{2} \end{split} \end{equation}$
其中 $n=\frac{1}{\sqrt{2 \pi}\sigma^{3}}$ ，最大化对数似然函数 $l(\theta)$ ，即：
$max\biggl(l(\theta)\biggr) =min\biggl(-l(\theta)\biggr) =min\biggl((\theta^Tx^{(i)}-y^{(i)})^{2}\biggr)$
即从假设hypothesis的值与样本真实值之间的偏差服从标准正太分布，并使用最大似然估计，我们同样可以得到均方误差的目标函数。