数据挖掘和机器学习的关系
什么是数据挖掘?
能够通过简单的查询就能知道结果的问题不属于数据挖掘;而需要很多数据去挖掘数据背后的东西才能得到想要的结果,这样复杂的问题才属于数据挖掘。
什么是机器学习?
机器学习是在需要进行数据挖掘时所需要用到的一个工具。
训练数据/验证数据/测试数据
监督学习/无监督学习/半监督学习
监督学习
处理的数据是带标签的,可以用来分类。
无监督学习
处理的数据是不带标签的,可以用来聚类。
半监督学习
半监督学习是监督学习和无监督学习相结合的一种学习方式。主要用来解决使用少量带标签的数据和大量没有标签的数据进行训练和分类的问题。
回归/分类/聚类
回归
回归可能是线,也可能是面。下面是根据二维数据点画出来的一条回归线。
根据已有的数据样本建模,得到回归模型(直线/曲线/面),当有新的样本拿过来时,可以根据模型去预测新的样本输出值。(如房屋价格预测),预测数据为连续型数值。
分类
如图像识别、垃圾邮件分类、文本分类……根据已有是带标签的数据(明确知道样本属于哪个标签)进行训练分类器,当有新的样本过来时,我们根据其属性以及训练好的模型,来判断新样本属于哪个类别。预测数据为类别型数据,但是类别已知。
聚类
聚类数据是没有标签的,聚类完成后才知道数据属于哪一个类别。预测数据为类别型数据,但是类别未知。
来源:CSDN
作者:Y_W_Sally
链接:https://blog.csdn.net/weixin_44831924/article/details/103772670