什么是机器学习？

机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习分为监督学习和非监督学习。

监督学习（Supervised learning）

聚类，clustering）试图使类内差距最小化，类间差距最大化。

线性回归

在对机器学习这门学科有了一个基本的认识后，我们就要正式开始进行模型算法的学习了。

模型定义
损失函数
参数估计

以下笔记来自吴闻达老师的机器学习视频。

模型定义

h（x）代表的是一个假设集合（

损失函数（Cost Function）

之前举的例子，关于房价的预测问题，是一个单变量的回归问题，输入数据只有x维度为1，

我们建立的模型是

，我们的目标是让这个直线尽可能的拟合所有数据，

即从数据的中心穿过，让我们的每个预测值h（x）与我们的已知数值y尽可能的接近。

那么，我们应该怎么选择最好的模型呢？通过求解参数theta1和theta2.

cost function(损失函数)来测量我们的假设的准确性。这需要使用来自x的输入

和实际输出y的假设的所有结果的平均差（实际上是平均值的更好的版本），如下。

说明：其实损失函数 J 计算的是h（x）与真实值y之间的垂直距离的平方和均值。

关于为什么多一个1/2的问题，是为了以后求导方便，不用太在意这个。

为了问题描述的方便，首先使用上图右边的简单模型，只有一个参数theta1.

下图是对数据样本点”X“的拟合状态，

当在上图中我们随意旋转h（x），将会得到不同的 J 值，可以得到下面的关于theta1 损失函数 J 的图像：

当同时考虑两个参数值 theta1和theta0时，损失函数的图像是这样的，被称为bowl-shape function，碗状的

下图的右边是上面三维图像的二维展示，那一圈一圈的椭圆被称为“等高线”（类似地理上的等高线），每一个椭圆上的不同点的 J 值都是相等的，

如图中绿色椭圆上的三个点，越靠近中心的椭圆 J 值越小。

上面左图对应的是右图中用绿色圆圈标注的点（theta1=800，theta0=-1.5），对应的模型h（x）的图像，右图中每一个不同的点，

都会在左图中对应一个不同的图像，如下：

当然，我们理想的情况是类似上图的情况，我们取的（theta1，theta0）出现图中的中心theta0=450,theta1=0.12，

在这个点可以是损失函数达到最小，趋近于0.这样我们就求得了模型参数theta0和theta1，进而得到最佳的假设h（x）。

参数估计：

Gradient Descent（梯度下降）

我们有了假设模型h（x），和损失函数 J，现在来讨论如何求得theta1和theta0的方法，梯度下降。我们的问题描述如下：

需要不断迭代，求得使损失函数 J 达到最小的theta1和theta0.

关于梯度下降的理解：

假设你现在站在两座山包上的其中一座，你需要以最快的速度下到山的最低处。每到达一个新的地方，

都选择在该点处梯度最大的方向下山即可。如图：

梯度下降算法表示如下：其中标出了梯度（蓝框内）和学习率（α > 0），梯度在这里通俗的说就是函数 J 的偏导数。

注意：梯度下降算法对局部最小值敏感，梯度下降可能收敛在局部最小，不能保证收敛到全局最小值。

说明：在计算机科学中，x：=x+y表示，先计算x+y的结果再赋值给变量x，类似先计算a=x+y，然后使x的值等于a。

下图为梯度为正、负的情况,theta的更新是不一样的：

（这将是后面要讲到了另一种算法）。

关于学习率α的问题：

当a过小的时候，迭代步长太小，梯度下降得太慢；

当a过大的时候，迭代步长过大，梯度无法收敛到最小值，而发生左右震荡的现象。

当固定a时，梯度下降法依然可以收敛到最小值（局部），

因为，当我们越靠近最小值时，我们的梯度越小，反应在上图就是越来越平缓，所以上面蓝色方框中的表达式会越来越小，

然后乘上a也越来越小，证明我们迭代的步长会逐步变小，即使我们使用的是固定不变的学习率a。

Gradient Descent For Linear Regression

（在线性回归中使用梯度下降）

其推导过程如下，分别对 J 求关于theta0和theta1的偏导数：

得到下面应用于线性回归的梯度下降算法：

通过对以上算法的不断迭代，我们求得了最好的假设h（x），其中红色“x”的轨迹，就是算法迭代的过程。

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!