一、什么是机器学习?
先来看一则开场白:
看完这段话,可以发现这里涉及了很多基于“经验”而做出的判断。换句话说就是:通过对经验的利用,就能对新的情况做出有效的决策。
**
机器学习定义是什么呢:
**笔者摘录了两则,大家批评接受
—>①:机器学习它致力于研究如何通过计算手段,利用“经验”来改善系统自身的性能。计算机里“经验”通常以“数据”形式存在,因此机器学习所研究的主要内容,是关于计算机上从数据中产生“模型”的算法(也叫“学习算法”)。有了学习算法,我们把经验数据输入,计算机就能基于已有数据建立模型。当面临新情况(新数据)时,模型会给我们提供相应的判断。简短来说,机器学习是研究关于“学习算法”的学问。(摘录周志华《机器学习》)
—>②:机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或预测。(摘录吴岸城《神经网络与深度学习》)
—> 笔者小注:两则定义选取角度不同,各从内涵外延出发进行阐述。机器学习主体研究还是各种算法,通过算法对新数据进行预测,同时也包含数据模型的建立与分析。
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-–
依据机器学习的方式分类
先了解一下会用到的基本术语:
- 学习:从数据中学得模型的过程,也叫训练
- 训练集:训练过程使用的数据叫训练数据,单独一条数据叫训练样本,训练样本全体组成训练集
- 学习器:就是依照部分数据建立的模型
泛化能力:学得模型适用于新样本的能力
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-–
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—--
依照预测值是离散的、连续值的划分:
1、预测值是:离散值–—-—-这类学习任务称为“分类”。
“二分类”任务,通常称其中一个为“正类”,另一个为“反类”
2、预测值是:连续值–—-—-这类学习任务称为“回归”。
3、将训练集分成若干个组,每个组称为一个簇,这种方法叫“聚类”
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—--
依照训练数据是否拥有标记信息的划分:监督学习:数据有表征项,得到的模型预测结果能与原数据中表征项进行比较。例如:我们通过训练样本中西瓜的外形、纹理,以及对应每个瓜是好瓜还是坏瓜(好/坏瓜就是表征项)建立模型,再用检验样本去验证,得到的检验样本的预测结果与检验样本表征项进行比较,就可以看出模型预测的准确性(学习器的学习能力)。代表有分类、回归等。
无监督学习:数据没有表征项,也就是没有人为标定好的训练数据,没有告诉模型中哪些数据是正确的,哪些是错误的。需要学习模型推断出数据的内在结构。例如在苹果香蕉混合的果篮中,机器依照不同特征将这两种水果分开。代表有关联规则的学习、聚类。常用算法有Apriori算法,K-Means算法等。
强化学习(RL):强化学习其实就是一个连续决策的过程。传统的机器学习中的监督学习是给定一些表征项,学习一个好的函数,对未知数据能做出很好的决策。但是有些时候,我们不知道表征项是什么,不知道好坏怎么区分,所以RL不是给定表征,而是给出一个回报函数,回报函数决定当前状态得到什么样的结果。虽然这个过程有点像监督学习,区别在于表征项不是预先准备的,而是通过一个个的学习过程来回调整机器学习到的“表征项”
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-–
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-–
–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-–
二、机器学习与数据建模、分析的区别
机器学习算是人工智能研究的一个分支,而人工智能又包含在当今大数据热潮中,所以机器学习与数据建模、数据分析有相似重叠,但在以下两点还是相差颇大。
1、数据输入量:数据建模、数据分析针对于可见量数据,在这些可见量数据上进行后续的分析,而机器学习的数据输入量相当庞大。打个比方就是,机器学习的数据量是一片大海,而数据建模、数据分析的数据量就犹如一滩海浪。我们能遇见一滩又一滩的海浪成型并轻抚海岸,却始终见不了大海的全貌。
2、研究目的:数据建模、数据分析致力于找寻合适的模型,依照模型给出最优。而机器学习重视的是,随着各种数据的输入,这些数据呈现的状态各是如何,再依照数据状态给出合理预测。
来源:CSDN
作者:zzZ_CMing
链接:https://blog.csdn.net/zzZ_CMing/article/details/78710090