2 机器学习基础

送分小仙女□ 提交于 2019-12-01 15:30:14

2-1 机器学习世界的数据

基础概念

三类鸢尾花数据集

数据集描述:

  • 数据整体叫数据集(data set)
  • 每一行数据称为一个样本(sample)
  • 除最后一列,每一列表达样本的一个特征(feature)
  • 最后一列,称为标记(label)

数据整理,思维转化

选择两个特征绘制散点图

实际问题中,特征可以很抽象,如文字识别

2-2 机器学习的主要任务

分类

  • 二分类

  • 多分类

如数字识别

  • 多标签分类

回归任务

此类问题即为回归任务

  • 一些情况下,回归任务可以简化成分类任务

分类和回归 ,监督学习

2-3 监督学习,非监督学习,半监督学习和增强学习

分类和回归 ,从任务上进行分类;

从算法上进行分类,则分为监督学习,非监督学习,半监督学习和增强学习

1.监督学习

  • 给机器的训练数据拥有“标记”或者“答案”

如猫狗识别,仅仅给出图片是不够的的,还需要给出标签,告诉机器,图像是什么。

再如文字识别

生活中的实际案例,

  • 图像已经拥有了标定信息
  • 银行已经积累了一定的客户信息和他们信用卡的信用情况
  • 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
  • 市场积累了房屋的基本信息和最终成交的金额

我们在这个课程中学习的大部分算法,属于监督学习算法

  • k近邻
  • 线性回归和多项式回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林

非监督学习

  • 给机器的训练数据没有任何“标记”或者“答案”

如上图,二维特征空间中,每个点我们没有标记其特征类别。非监督学习得作用是可以借助非监督学习算法对数据进行分类

非监督学习的意义:

  • 给机器的训练数据没有任何“标记”或者“答案”

  • 对没有“标记”的数据进行分类-聚类分析

  • 对数据进行降维处理
    (1)特征提取
    当我们面对一个数据时,数据有很多特征,根据我们的经验或者分析,我们认为某些特征对我们要研究的问题的没有贡献的。
    比如银行,信用卡的信用评级和人的胖瘦无关?

(2)特征压缩:PCA

不扔掉任何特征,但是有时候特征间关联性很强。
举个例子

比如上图,二维平面上分布着很多的数据点,这些点整体上呈现一个直线分布,如果我们沿着散点的直线趋势画一条直线,如图中红色箭头线,这样,二维的点就变为一维的点。

再如,手写识别,28* 28,784,而通过特征压缩,可能只需要几十个。

  • 异常检测

如图中红点,不能表达整体的特征。二维可以直接看出,而对于高位数据,需要使用非监督学校来剔除异常点。

半监督学习

一部分数据有“标记”或者“答案”,另一部分数据没有

更常见:各种原因产生的标记缺失

通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

增强学习

如AlphaGo

2-4 批量学习,在线学习,参数学习和非参数学习

批量学习,在线学习

批量学习Batch Learning

搜集一定样本的资料,然后将这些样本资料送给我们的 机器学习算法,机器学习算法进而训练出一个模型,模型训练出来后,投入生产环境,具体应用时,输入新样例,并得到结果。

优点:

  • 简单。(只需要学习一个机器学习算法本身,不需要考虑当这个算法投入生产环境时,我们如何逐步优化这个算法。)

问题:
如何适应环境变化?

解决方案:定时重新批量学习

如每隔一定时间,加入新数据,和旧数据一起做批量学习。

缺点:

每次重新批量学习,运算量巨大;

在某些环境变化非常快的情况下,甚至不可能的。如股市。

在线学习 Online Learning

在批量学习的基础上,输入样例进入模型,得到预期的结果后,输入样例并不浪费掉。

将输入样例和在某些情况下我们不能马上得到输入样例的正确的结果,如股市。预测下一分钟的股价,一分钟后,我们即可以得到正确的股价,这样就可以得到预测的股价和正确的股价的差异的不同。这些信息仍然为机器学习算法需要的特征信息。我们就可以将这些信息迭代进我们的机器学习算法中,来改进我们的模型,以此类推。

优点:

及时反应新的环境变化

问题:
新的数据带来不好的变化?

会很快进入模型,影响模型的训练。

解决方案:

需要加强对数据进行监控

及时检测异常数据,并进行处理。

·其他:

也适用于数据量巨大,完全无法批量学习的环境。

参数学习和非参数学习

参数学习Parametric Learning

\(f(x)=a*x+b\)

参数学习的特点
一旦学到了参数,就不再需要原有的数据集

线性回归

非参数学习Nonparametric Learning

不对模型进行过多假设

非参数不等于没参数!

2-5 和机器学习相关的哲学思考


易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!