人工智能、机器学习及深度学习的起源和发展

发展时间线
- 第一阶段：人工智能起步期1956—1980s
  - 1956达特茅斯会议标志AI诞生
  - 1957神经网络Perceptron被罗森布拉特发明
  - 1970受限于计算能力，进入第一个寒冬
- 第二阶段：专家系统推广1980s—1990s
  - 1980 XCON专家系统出现，每年节约4000万美元
  - 1986 BP ，Geoffrey Hinton提出了前馈算法，一个通过对输入数据按照重要进行排序的精准神经网络。
  - 1989 卷积，Yann LeCun写了另外一篇旷世之作，描述了卷积神经网络。这些发现突破了计算机难以解决的问题，譬如从一张照片中找到一只猫。
  - 1990——1991 人工智能计算机DARPA没能实现，政府投入缩减，进入第二次低谷
  - 1997 IBM的DeepBlue战胜国际象棋冠军
  - 1997 Schmidhuber发明了长短期记忆网络（LSTM）
- 第三阶段：深度学习2000s—至今
  - 2006 Hinton提出“深度学习”的神经网络
  - 2011 苹果的Siri问世，技术上不断创新
  - 2012
    - Google无人驾驶汽车上路（2009年宣布）
    - 2012年，计算机视觉界顶级比赛ILSVRC中，多伦多大学Hinton团队所提出的深度卷积神经网络结构AlexNet一鸣惊人，同时也拉开了深度卷积神经网络在计算机视觉领域广泛应用的序幕。成功原因
      - 大量数据，Deep Learning领域应该感谢李飞飞团队搞出来如此大的标注数据集合ImageNet；
      - GPU，这种高度并行的计算神器确实助了洪荒之力，没有神器在手，Alex估计不敢搞太复杂的模型；
      - 算法的改进，包括网络变深、数据增强、ReLU、Dropout等。
  - 2013 深度学习算法在语音和视觉识别上有重大突破，识别率超过99%和95%
  - 2014
    - GoogleNet VGGNet ，Google公司的GoogleNet和牛津大学视觉几何组的VGGNet在当年的ILSVRC中再一次各自使用深度卷积神经网络取得了优异的成绩，并在分类错误率上优于AlexNet数个百分点，再一次将深度卷积神经网络推上了新的巅峰。
    - GAN Ian Goodfellow因提出了生成对抗网络（GANs）而闻名，他被誉为“GANs之父”，甚至被推举为人工智能领域的顶级专家。
  - 2015 ResNet 微软亚洲研究院何恺明等发明ResNet，ResNet的核心思想是引入所谓的“身份近路连接（identity shortcut connection）”，可以跳过一层或多层，从而解决梯度下降问题。
    - 残差网络有这样几个特点：
      - 1. 网络较瘦，控制了参数数量；
      - 2. 存在明显层级，特征图个数逐层递进，保证输出特征表达能力；
      - 3. 使用了较少的池化层，大量使用下采样，提高传播效率；
      - 4. 没有使用Dropout，利用BN和全局平均池化进行正则化，加快了训练速度；
      - 5. 层数较高时减少了3x3卷积个数，并用1x1卷积控制了3x3卷积的输入输出特征图数量，称这种结构为“瓶颈”(bottleneck)。
  - 2016 Deepmind团队的AlphaGo运用深度学习算法战胜围棋冠军
概念
- 人工智能、机器学习和深度学习的关系
  - 严格意义上来讲，人工智能和机器学习没有直接关系
  - 人工智能（AI）是目标
  - 机器学习是实现手段
  - 深度学习源于机器学习的一个技术方向：ANN（Artificial Neural Networks，人工神经网络）
- 人工智能
  - 人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。
  - 学派
    - 符号主义
      - 功能模拟方法
      - 从定理机器证明、归结方法到非单调推理理论等一系列成就
      - 符号主义学派认为人工智能源于数学逻辑。数学逻辑从19世纪末起就获得迅速发展，到20世纪30年代开始用于描述智能行为。计算机出现后，又在计算机上实现了逻辑演绎系统。该学派认为人类认知和思维的基本单元是符号，而认知过程就是在符号表示上的一种运算。符号主义致力于用计算机的符号操作来模拟人的认知过程其，实质就是模拟人的左脑抽象逻辑思维，通过研究人类认知系统的功能机理，用某种符号来描述人类的认知过程，并把这种符号输入到能处理符号的计算机中，从而模拟人类的认知过程，实现人工智能。
      - 连接主义
        结构模拟方法
        
        归纳学习
        
        连接主义（Connectionism）又称为仿生学派(Bionicsism)或生理学派(Physiologism)。是一种基于神经网络及网络间的连接机制与学习算法的智能模拟方法。其原理主要为神经网络和神经网络间的连接机制和学习算法。这一学派认为人工智能源于仿生学，特别是人脑模型的研究。
        
        联结主义学派从神经生理学和认知科学的研究成果出发，把人的智能归结为人脑的高层活动的结果，强调智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。其中人工神经网络就是其典型代表性技术。
        
        行为主义
        行为模拟方法
        
        反馈控制模式及广义遗传算法
        
        智能控制和智能机器人系统。
        
        认为智能是系统与环境的交互行为，是对外界复杂环境的一种适应。这些理论与范式在实践之中都形成了自己特有的问题解决方法体系，并在不同时期都有成功的实践范例。行为主义最早来源于20世纪初的一个心理学流派，认为行为是有机体用以适应环境变化的各种身体反应的组合，它的理论目标在于预见和控制行为。
  - 实现方法
    - 人工智能在计算机上实现时有2种不同的方式。
      - 一种是采用传统的编程技术，使系统呈现智能的效果，而不考虑所用方法是否与人或动物机体所用的方法相同。这种方法叫工程学方法（ENGINEERING APPROACH），它已在一些领域内作出了成果，如文字识别、电脑下棋等。
        采用这种方法，需要人工详细规定程序逻辑，如果游戏简单，还是方便的。如果游戏复杂，角色数量和活动空间增加，相应的逻辑就会很复杂（按指数式增长），人工编程就非常繁琐，容易出错。而一旦出错，就必须修改原程序，重新编译、调试，最后为用户提供一个新的版本或提供一个新补丁，非常麻烦。
        
        一种是模拟法（MODELING APPROACH），它不仅要看效果，还要求实现方法也和人类或生物机体所用的方法相同或相类似。
        遗传算法（GENERIC ALGORITHM，简称GA）和人工神经网络（ARTIFICIAL NEURAL NETWORK，简称ANN）均属后一类型。遗传算法模拟人类或生物的遗传-进化机制，人工神经网络则是模拟人类或动物大脑中神经细胞的活动方式。为了得到相同智能效果，两种方式通常都可使用。
        
        采用这种方法时，编程者要为每一角色设计一个智能系统（一个模块）来进行控制，这个智能系统（模块）开始什么也不懂，就像初生婴儿那样，但它能够学习，能渐渐地适应环境，应付各种复杂情况。这种系统开始也常犯错误，但它能吸取教训，下一次运行时就可能改正，至少不会永远错下去，用不到发布新版本或打补丁。利用这种方法来实现人工智能，要求编程者具有生物学的思考方法，入门难度大一点。但一旦入了门，就可得到广泛应用。由于这种方法编程时无须对角色的活动规律做详细规定，应用于复杂问题，通常会比前一种方法更省力。
- 机器学习
  - 概念
    - 机器学习（Machine Learning）是指用某些算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断的过程。
    - 传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。
    - 机器学习的思想并不复杂，它仅仅是对人类生活中学习过程的一个模拟。而在这整个过程中，最关键的是数据。
  - 基于学习方式的分类
    - (1) 监督学习(有导师学习)：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。[
    - (2) 无监督学习(无导师学习)：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。[2]
    - (3) 强化学习(增强学习)：以环境反惯(奖/惩信号)作为输人，以统计和动态规划技术为指导的一种学习方法。[2]
  - 基于学习目标的分类
    - (1) 概念学习：学习的目标和结果为概念，或者说是为了获得概念的学习。典型的概念学习主要有示例学习。
    - (2) 规则学习：学习的目标和结果为规则，或者为了获得规则的学习。典型规则学习主要有决策树学习。
    - (3) 函数学习：学习的目标和结果为函数，或者说是为了获得函数的学习。典型函数学习主要有神经网络学习。[2]
    - (4) 类别学习：学习的目标和结果为对象类，或者说是为了获得类别的学习。典型类别学习主要有聚类分析。
    - (5) 贝叶斯网络学习：学习的目标和结果是贝叶斯网络，或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和多数学习。[2]
  - 基于学习策略的分类
    - (1) 模拟人脑的机器学习
      - 符号学习：模拟人脑的宏现心理级学习过程，以认知心理学原理为基础，以符号数据为输入，以符号运算为方法，用推理过程在图或状态空间中搜索，学习的目标为概念或规则等。符号学习的典型方法有记忆学习、示例学习、演绎学习.类比学习、解释学习等。
      - 神经网络学习(或连接学习)：模拟人脑的微观生理级学习过程，以脑和神经科学原理为基础，以人工神经网络为函数结构模型，以数值数据为输人，以数值运算为方法，用迭代过程在系数向量空间中搜索，学习的目标为函数。典型的连接学习有权值修正学习、拓扑结构学习。
      - (2) 直接采用数学方法的机器学习
        主要有统计机器学习。[2]
        统计机器学习是基于对数据的初步认识以及学习目的的分析，选择合适的数学模型，拟定超参数，并输入样本数据，依据一定的策略，运用合适的学习算法对模型进行训练，最后运用训练好的模型对数据进行分析预测。
        
        统计机器学习三个要素：
        模型(model)：模型在未进行训练前，其可能的参数是多个甚至无穷的，故可能的模型也是多个甚至无穷的，这些模型构成的集合就是假设空间。
        
        策略(strategy)：即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小，模型就越好。那么策略就是误差最小。
        
        算法(algorithm)：即从假设空间中挑选模型的方法(等同于求解最佳的模型参数)。机器学习的参数求解通常都会转化为最优化问题，故学习算法通常是最优化算法，例如最速梯度下降法、牛顿法以及拟牛顿法等。
  - 任何通过数据训练的学习算法的相关研究都属于机器学习，包括很多已经发展多年的技术，比如
    - 线性回归（Linear Regression）
    - K均值（K-means，基于原型的目标函数聚类方法）
    - 决策树（Decision Trees，运用概率分析的一种图解法）
    - 随机森林（Random Forest，运用概率分析的一种图解法）
    - PCA（Principal Component Analysis，主成分分析）
    - SVM（Support Vector Machine，支持向量机）
    - ANN（Artificial Neural Networks，人工神经网络）
  - 常见算法
    - 决策树算法
      - 决策树及其变种是一类将输入空间分成不同的区域，每个区域有独立参数的算法。决策树算法充分利用了树形模型，根节点到一个叶子节点是一条分类的路径规则，每个叶子节点象征一个判断类别。先将样本分成不同的子集，再进行分割递推，直至每个子集得到同类型的样本，从根节点开始测试，到子树再到叶子节点，即可得出预测类别。此方法的特点是结构简单、处理数据效率较高。[4]
      - 朴素贝叶斯算法
        朴素贝叶斯算法是一种分类算法。它不是单一算法，而是一系列算法，它们都有一个共同的原则，即被分类的每个特征都与任何其他特征的值无关。朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率，而不管特征之间的任何相关性。然而，特征并不总是独立的，这通常被视为朴素贝叶斯算法的缺点。简而言之，朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常见的分类方法相比，朴素贝叶斯算法需要的训练很少。在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数，这通常可以快速且确定地完成。这意味着即使对于高维数据点或大量数据点，朴素贝叶斯分类器也可以表现良好。[4]
        
        支持向量机算法
        基本思想可概括如下：首先，要利用一种变换将空间高维化，当然这种变换是非线性的，然后，在新的复杂空间取最优线性分类表面[8]。由此种方式获得的分类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法，但它与传统方式的思维方法很不同，输入空间、提高维度从而将问题简短化，使问题归结为线性可分的经典解问题。支持向量机应用于垃圾邮件识别，人脸识别等多种分类问题。[4]
        
        随机森林算法
        控制数据树生成的方式有多种，根据前人的经验，大多数时候更倾向选择分裂属性和剪枝，但这并不能解决所有问题，偶尔会遇到噪声或分裂属性过多的问题。基于这种情况，总结每次的结果可以得到袋外数据的估计误差，将它和测试样本的估计误差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点有很多，可以产生高精度的分类器，并能够处理大量的变数，也可以平衡分类资料集之间的误差。[4]
        
        人工神经网络算法
        人工神经网络与神经元组成的异常复杂的网络此大体相似，是个体单元互相连接而成，每个单元有数值量的输入和输出，形式可以为实数或线性组合函数。它先要以一种学习准则去学习，然后才能进行工作。当网络判断错误时，通过学习使其减少犯同样错误的可能性。此方法有很强的泛化能力和非线性映射能力，可以对信息量少的系统进行模型处理。从功能模拟角度看具有并行性，且传递信息速度极快。[4]
        
        Boosting与Bagging算法
        Boosting是种通用的增强基础算法性能的回归分析算法。不需构造一个高精度的回归分析，只需一个粗糙的基础算法即可，再反复调整基础算法就可以得到较好的组合回归模型。它可以将弱学习算法提高为强学习算法，可以应用到其它基础回归算法，如线性回归、神经网络等，来提高精度。Bagging和前一种算法大体相似但又略有差别，主要想法是给出已知的弱学习算法和训练集，它需要经过多轮的计算，才可以得到预测函数列，最后采用投票方式对示例进行判别。[4]
        
        关联规则算法
        关联规则是用规则去描述两个变量或多个变量之间的关系，是客观反映数据本身性质的方法。它是机器学习的一大类任务，可分为两个阶段，先从资料集中找到高频项目组，再去研究它们的关联规则。其得到的分析结果即是对变量间规律的总结。[4]
        
        EM（期望最大化）算法
        在进行机器学习的过程中需要用到极大似然估计等参数估计方法，在有潜在变量的情况下，通常选择EM算法，不是直接对函数对象进行极大估计，而是添加一些数据进行简化计算，再进行极大化模拟。它是对本身受限制或比较难直接处理的数据的极大似然估计算法。[4]
        
        深度学习
        深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。
        
        深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。
        
        深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。
- 深度学习
  - 人工神经网络的研究的概念
    - 通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”（feature learning）或“表示学习”（representation learning）
    - 以往在机器学习用于现实任务时，描述样本的特征通常需由人类专家来设计，这成为“特征工程”（feature engineering）
    - 特征学习（表征学习）则通过机器学习技术自身来产生好特征，这使机器学习向“全自动数据分析”又前进了一步
    - 深度学习是机器学习现在比较火的一个方向，其本身是神经网络算法的衍生，在图像、语音等富媒体的分类和识别上取得了非常好的效果。
    - 根据统计学习的一般规律知道，模型参数越多，需要参与训练的数据量也越大
    - 自从2006年， Hinton等提出快速计算受限玻耳兹曼机(RBM)网络权值及偏差的CD-K算法以后，RBM就成了增加神经网络深度的有力工具，导致后面使用广泛的DBN(由 Hinton等开发并已被微软等公司用于语音识别中)等深度网络的出现。与此同时，稀疏编码等由于能自动从数据中提取特征也被应用于深度学习中。基于局部数据区域的卷积神经网络方法今年来也被大量研究。 [2]
  - 典型模型
    - CNN：卷积神经网络( convolutional neural network)
      - 基于卷积运算的神经网络系统
      - 在无监督预训练出现之前，训练深度神经网络通常非常困难，而其中一个特例是卷积神经网络。卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在Fukushima(D的神经认知机中提出的，基于神经元之间的局部连接和分层组织图像转换，将有相同参数的神经元应用于前一层神经网络的不同位置，得到一种平移不变神经网络结构形式。后来，Le Cun等人在该思想的基础上，用误差梯度设计并训练卷积神经网络，在一些模式识别任务上得到优越的性能。至今，基于卷积神经网络的模式识别系统是最好的实现系统之一，尤其在手写体字符识别任务上表现出非凡的性能。
      - DBN：深度置信网络
        以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值
        
        堆栈自编码网络模型
        自编码( Auto encoder)和稀疏编码( Sparse Coding)
        
        基于多层神经元的自编码神经网络
        
        堆栈自编码网络的结构与DBN类似，由若干结构单元堆栈组成，不同之处在于其结构单元为自编码模型( auto-en-coder)而不是RBM。自编码模型是一个两层的神经网络，第一层称为编码层，第二层称为解码层。 [5]
  - 深度学习训练过程
    - 在非监督数据上建立多层神经网络的一个有效方法
      - 具体分为两步：首先逐层构建单层神经元，这样每次都是训练一个单层网络；当所有层训练完后，使用wake-sleep算法进行调优。[6]
        将除最顶层的其他层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其他层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用wake-sleep算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的节点。比如顶层的一个节点表示人脸，那么所有人脸的图像应该激活这个节点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。wake-sleep算法分为醒( wake)和睡(sleep)两个部分。[6]
        wake阶段：认知过程，通过外界的特征和向上的权重产生每一层的抽象表示，并且使用梯度下降修改层间的下行权重。[6]
        
        sleep阶段：生成过程，通过顶层表示和向下权重，生成底层的状态，同时修改层间向上的权重。[6]
        
        自下上升的非监督学习
        就是从底层开始，一层一层地往顶层训练。采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，这也是和传统神经网络区别最大的部分，可以看作是特征学习过程。具体的，先用无标定数据训练第一层，训练时先学习第一层的参数，这层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层，由于模型容量的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到n-l层后，将n-l层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数。[6]
        
        自顶向下的监督学习
        就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调。基于第一步得到的各层参数进一步优调整个多层模型的参数，这一步是一个有监督训练过程。第一步类似神经网络的随机初始化初值过程，由于第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。所以深度学习的良好效果在很大程度上归功于第一步的特征学习的过程。[6]
算法
- 人工神经网络
  - 概念
    - 人工神经网络（Artificial Neural Networks，ANN）系统是 20 世纪 40 年代后出现的。它是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。BP（Back Propagation）算法又称为误差反向传播算法，是人工神经网络中的一种监督式的学习算法。BP 神经网络算法在理论上可以逼近任意函数，基本的结构由非线性变化单元组成，具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定，灵活性很大，在优化、信号处理与模式识别、智能控制、故障诊断等许多领域都有着广泛的应用前景。
  - 时间发展线
    - 1943年
      - 心理学家W·Mcculloch和数理逻辑学家W·Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今，并且直接影响着这一领域研究的进展。因而，他们两人可称为人工神经网络研究的先驱。
      - 1945年
        冯·诺依曼领导的设计小组试制成功存储程序式电子计算机，标志着电子计算机时代的开始。1948年，他在研究工作中比较了人脑结构与存储程序式计算机的根本区别，提出了以简单神经元构成的再生自动机网络结构。但是，由于指令存储式计算机技术的发展非常迅速，迫使他放弃了神经网络研究的新途径，继续投身于指令存储式计算机技术的研究，并在此领域作出了巨大贡献。虽然，冯·诺依曼的名字是与普通计算机联系在一起的，但他也是人工神经网络研究的先驱之一。
        
        50年代末
        F·Rosenblatt设计制作了“感知机”，它是一种多层的神经网络。这项工作首次把人工神经网络的研究从理论探讨付诸工程实践。当时，世界上许多实验室仿效制作感知机，分别应用于文字识别、声音识别、声纳信号识别以及学习记忆问题的研究。然而，这次人工神经网络的研究高潮未能持续很久，许多人陆续放弃了这方面的研究工作，这是因为当时数字计算机的发展处于全盛时期，许多人误以为数字计算机可以解决人工智能、模式识别、专家系统等方面的一切问题，使感知机的工作得不到重视；其次，当时的电子技术工艺水平比较落后，主要的元件是电子管或晶体管，利用它们制作的神经网络体积庞大，价格昂贵，要制作在规模上与真实的神经网络相似是完全不可能的；另外，在1968年一本名为《感知机》的著作中指出线性感知机功能是有限的，它不能解决如异感这样的基本问题，而且多层网络还不能找到有效的计算方法，这些论点促使大批研究人员对于人工神经网络的前景失去信心。60年代末期，人工神经网络的研究进入了低潮。
        
        60年代初期
        Widrow提出了自适应线性元件网络，这是一种连续取值的线性加权求和阈值网络。后来，在此基础上发展了非线性多层自适应网络。当时，这些工作虽未标出神经网络的名称，而实际上就是一种人工神经网络模型。
        
        80年代初期
        模拟与数字混合的超大规模集成电路制作技术提高到新的水平，完全付诸实用化，此外，数字计算机的发展在若干应用领域遇到困难。这一背景预示，向人工神经网络寻求出路的时机已经成熟。美国的物理学家Hopfield于1982年和1984年在美国科学院院刊上发表了两篇关于人工神经网络研究的论文，引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。随即，一大批学者和研究人员围绕着 Hopfield提出的方法展开了进一步的工作，形成了80年代中期以来人工神经网络的研究热潮。
        
        1985年 BM机
        Ackley、Hinton和Sejnowski将模拟退火算法应用到神经网络训练中，提出了Boltzmann机，该算法具有逃离极值的优点，但是训练时间需要很长。
        
        1986年 BP算法
        Rumelhart、Hinton和Williams提出了多层前馈神经网络的学习算法，即BP算法。它从证明的角度推导算法的正确性，是学习算法有理论依据。从学习算法角度上看，是一个很大的进步。
        
        1988年 RBF网络
        Broomhead和Lowe第一次提出了径向基网络：RBF网络。
  - 模型
    - 前向神经网络
      - DNN：深度神经网络
      - CNN：卷积神经网络
      - 反馈神经网络
        RNN：循环神经网络
        
        LSTM：逆递归神经网络
        
        玻尔兹曼机
        RBM：受限玻尔兹曼机
  - 分类
    - 1基础
      - 1.FNN(前馈神经网络)(FP)
      - 2.BP(反向传播算法)浅层
      - 3.DNN
      - 2卷积神经网络
        4.CNN
        
        3循环神经网络
        5.RNN
        
        6.LSTM
        
        4自编码器
        
        5其他
        7.GAN
        
        8.DBN

来源：https://www.cnblogs.com/quxiangjia/p/12239351.html