常见的机器学习算法

1.学习方式

常见的算法	介绍	常见的学习方法	应用场景
监督学习	输入数据成为训练数据，每组训练数据都有一个明确的标识或结果，监督学习就是建立一个学习过程将预测结果与训练数据的实际结果进行比较，不断地调整预测模型，知道预测模型达到一个预期的准确率	逻辑回归和反向传递神经网络	分类问题和回归问题
非监督的学习	数据不被标识，学习模型只是为了推断数据的内部结构，常见的应用场景包括关联规则的学习以及聚类	Apriori算法和k-means	关联规则学习以及聚类
半监督的学习	输入的数据部分被标识，部分没有被标识，正中学习模型可以用来预测，但是模型需要学习数据的内在结构以便合理的组织数据来进行预测	图推论算法和拉普拉斯支持向量机	分类与回归
强化学习	输入数据作为模型的反馈，不像监督模型那样，输入数据仅仅是检测模型对错的方式，强化学习中，属如数据直接反馈到模型，模型直接立即做出调整	Q-learning和时间差学习	动态系统和机器人控制

2.算法的类似性

分类	说明	举例
回归算法	师徒采用误差衡量变量之间关系的一种算法，回归算法是统计机器学习的利器，在机器学习领域，有时候是指一类问题，有时候指的的一种算法	最小二乘法，逻辑回归，逐步式回归，多元自适应回归样条以及本地散点平滑估计
基于实例的方法	常常用来对决策问题进行建模，这种模型先取一批样本数据，然后根据近似性吧新数据与样本数据进行比较，通过这种方式寻找最佳匹配，基于实例的方法也被称为赢家通吃或者基于记忆的学习	knn（k-nearest neighbor），学习矢量化，以及自组织映射算法
正则化方法	是回归算法的延伸，通常是对简单模型给予奖励，复杂模型给予惩罚	ridgeregression least absolute shrinkage and selection operator 以及弹性网络
决策树学习	根据数据的属性采用树状结构简历决策模型，决策树常用来解决分类和回归问题	分类及回归树，ID3，C4.5，decisionstump 随机深林，多元自适应回归样条以及梯度推理机
贝叶斯方法	基于贝叶斯定理的一种方法	朴素贝叶斯算法，平均但依赖估计，bayesian belief network BBN
基于核的方法	支持向量机就是典型的代表，就是把输入数据映射到一个高阶的向量空间里，让一些分类和回归问题更容易解决	支持向量机，RBF，LDA（现象判别分析）
聚类算法	就像回归一样，描述的是一类问题，有时候描述的是一类算法，聚类算法就是按照中心点或者分层的方式对输入数据进行归并，聚类算法都是试图寻找数据的内部结构，方便按照最大的共同点将数据进行归类	k-means和期望最大化的算法。
关联规则学习	关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。	Apriori算法和Eclat算法等。
人工神经网络	人工神经网络算法模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），	感知器神经网络（Perceptron Neural Network）, 反向传递（Back Propagation）， Hopfield网络，自组织映射（Self-Organizing Map, SOM）。学习矢量量化（Learning Vector Quantization， LVQ）
深度学习	深度学习算法是对人工神经网络的发展。在近期赢得了很多关注，特别是百度也开始发力深度学习后，更是在国内引起了很多关注。在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。	受限波尔兹曼机（Restricted Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷积网络（Convolutional Network）, 堆栈式自动编码器（Stacked Auto-encoders）。
降低维度的算法	像聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。	主成份分析（Principle Component Analysis， PCA），偏最小二乘回归（Partial Least Square Regression，PLS）， Sammon映射，多维尺度（Multi-Dimensional Scaling, MDS）, 投影追踪（Projection Pursuit）等。
集成算法	集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。	Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆叠泛化（Stacked Generalization， Blending），梯度推进机（Gradient Boosting Machine, GBM），随机森林（Random Forest）。