机器学习基本概念

末鹿安然 提交于 2019-12-30 23:07:17

数据挖掘和机器学习的关系

什么是数据挖掘?
       能够通过简单的查询就能知道结果的问题不属于数据挖掘;而需要很多数据去挖掘数据背后的东西才能得到想要的结果,这样复杂的问题才属于数据挖掘。

什么是机器学习?
      机器学习是在需要进行数据挖掘时所需要用到的一个工具。

训练数据/验证数据/测试数据

在这里插入图片描述

      

监督学习/无监督学习/半监督学习

监督学习
       处理的数据是带标签的,可以用来分类

无监督学习
      处理的数据是不带标签的,可以用来聚类

半监督学习
      半监督学习是监督学习和无监督学习相结合的一种学习方式。主要用来解决使用少量带标签的数据和大量没有标签的数据进行训练和分类的问题。

回归/分类/聚类

回归
       回归可能是线,也可能是面。下面是根据二维数据点画出来的一条回归线。

在这里插入图片描述
      根据已有的数据样本建模,得到回归模型(直线/曲线/面),当有新的样本拿过来时,可以根据模型去预测新的样本输出值。(如房屋价格预测),预测数据为连续型数值。

分类
      如图像识别、垃圾邮件分类、文本分类……根据已有是带标签的数据(明确知道样本属于哪个标签)进行训练分类器,当有新的样本过来时,我们根据其属性以及训练好的模型,来判断新样本属于哪个类别。预测数据为类别型数据,但是类别已知。

聚类
      聚类数据是没有标签的,聚类完成后才知道数据属于哪一个类别。预测数据为类别型数据,但是类别未知。

在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!