贝叶斯

人工智能、机器学习及深度学习的起源和发展

风格不统一 提交于 2020-01-29 00:02:45
人工智能、机器学习及深度学习的起源和发展 发展时间线 第一阶段:人工智能起步期 1956—1980s 1956达特茅斯会议标志AI诞生 1957神经网络Perceptron被罗森布拉特发明 1970受限于计算能力,进入第一个寒冬 第二阶段:专家系统推广 1980s—1990s 1980 XCON专家系统出现,每年节约4000万美元 1986 BP ,Geoffrey Hinton提出了前馈算法,一个通过对输入数据按照重要进行排序的精准神经网络。 1989 卷积,Yann LeCun写了另外一篇旷世之作,描述了卷积神经网络。这些发现突破了计算机难以解决的问题,譬如从一张照片中找到一只猫。 1990——1991 人工智能计算机DARPA没能实现,政府投入缩减,进入第二次低谷 1997 IBM的DeepBlue战胜国际象棋冠军 1997 Schmidhuber发明了长短期记忆网络(LSTM) 第三阶段:深度学习 2000s—至今 2006 Hinton提出“深度学习”的神经网络 2011 苹果的Siri问世,技术上不断创新 2012 Google无人驾驶汽车上路(2009年宣布) 2012年,计算机视觉界顶级比赛ILSVRC中,多伦多大学Hinton团队所提出的深度卷积神经网络结构AlexNet一鸣惊人,同时也拉开了深度卷积神经网络在计算机视觉领域广泛应用的序幕。成功原因 大量数据,

朴素贝叶斯学习笔记

社会主义新天地 提交于 2020-01-28 07:26:23
本文为学习《统计学习方法》、《机器学习实战》朴素贝叶斯相关的笔记。 朴素贝叶斯,是基于 贝叶斯定理 和 特征条件独立假设 的分类方法。 特征条件独立假设是指:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现。这也是算法被称为朴素贝叶斯的原因。 公式推导 我们有数据集 ,其中输入为特征向量 ,输出为类标记 。朴素贝叶斯要通过数据集学习先验概率和条件概率。 先验概率: 这里代表数据集中的每个类别的概率 条件概率: 这里代表在类别为 时,输入的特征向量中的每一个特征值为对应的 的概率。 对条件概率分布作条件独立性的假设,即特征之间不相关,可以得出 在分类时,对于给定的 ,通过学习到的模型计算得到后验概率 ,将后验概率最大的类作为 的类输出。后验概率计算根据贝叶斯定理进行 : 将 上上式代入上式,可得 ,代表在后验概率最大时对应的 值。 一个例子 这个例子来自于《机器学习实战》,是根据词条中词汇的出现判断其是否是侮辱性词条。 我们构造以下数据: def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my',

分类算法总结

依然范特西╮ 提交于 2020-01-27 22:24:48
目前看到的比较全面的分类算法,总结的还不错. 主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。 主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。 (2)贝叶斯 贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提

NLP——LDA(Latent Dirichlet Allocation-潜在狄利克雷分布)

独自空忆成欢 提交于 2020-01-26 14:57:03
一、首先是贝叶斯 参考 机器学习(一) —— 浅谈贝叶斯和MCMC 其中 π 指的是参数的概率分布, π ( θ ) π(θ) 指的是先验概率, π(θ|x) 指的是后验概率, f(x|θ) 指的是我们观测到的样本的分布,也就是似然函数(likelihood),记住 竖线 | 左边的才是我们需要的 。其中积分求的区间 Θ 指的是参数 θ θ 所有可能取到的值的域,所以可以看出后验概率 π(θ|x) 是在知道 x x 的前提下在 Θ 域内的一个关于 θ 的概率密度分布,每一个 θ 都有一个对应的可能性(也就是概率)。 其中介绍了贝叶斯思想、先验概率、后验概率、 似然函数 f ( x | θ ) : 似然函数听起来很陌生,其实就是我们在概率论当中看到的各种概率分布 f ( x ) ,那为什么后面要加个参数 | θ 呢?我们知道,掷硬币这个事件是服从伯努利分布的 Ber(p) , n次的伯努利实验就是我们熟知的二项分布 B i n ( n , p ) , 这里的p就是一个参数,原来我们在做实验之前,这个参数就已经存在了(可以理解为上帝已经定好了),我们抽样出很多的样本 x 是为了找出这个参数。 其实我们观测到样本 x 的分布是在以某个参数 θ 为前提下得出来的,所以我们记为 f ( x | θ ) ,只是我们并不知道这个参数是多少。 后验分布 :以前我们想知道一个参数

task5 贝叶斯

爱⌒轻易说出口 提交于 2020-01-26 08:33:15
知识点梳理¶ 相关概念(生成模型、判别模型) 先验概率、条件概率 贝叶斯决策理论 贝叶斯定理公式 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决? 优缺点 sklearn 自带代码块 from sklearn . naive_bayes import GaussianNB from sklearn . datasets import load_iris import pandas as pd from sklearn . model_selection import train_test_split iris = load_iris ( ) X_train , X_test , y_train , y_test = train_test_split ( iris . data , iris . target , test_size = 0.2 ) clf = GaussianNB ( ) . fit ( X_train , y_train ) print ( "Classifier Score:" , clf . score ( X_test , y_test ) ) 相关概念 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中

统计学习方法——朴素贝叶斯法、先验概率、后验概率

試著忘記壹切 提交于 2020-01-25 15:17:00
  朴素贝叶斯法,就是使用贝叶斯公式的学习方法,朴素就是它假设输入变量(向量)的各个分量之间是相互独立的。所以对于分量之间不独立的分布,如果使用它学习和预测效果就不会很好。 简化策略   它是目标是通过训练数据集学习联合概率分布$P(X, Y)$用来预测。书上说,具体是先学习到先验概率分布以及条件概率分布,分别如下:(但我认为,直接学习$P(X, Y)$就行了,它要多此一举算出这两个再乘起来变成$P(X, Y)$,但其实计算量差不多,可能这样更好理解吧) $P(Y = c_k), k = 1, 2, 3, ..., K$ $P(X = x|Y = c_k) = P(X^{(1)} = x^{(1)}, ..., X^{(n)} = x^{(n)}|Y = c_k), k = 1, 2, 3, ..., K$   其中输入空间$\mathcal{X} \subseteq R^n$为$n$维向量的集合,输出空间为标记集合$\mathcal{Y} = \{c_1, c_2, ..., c_K\}$。   上面提到了先验概率分布,这里记一下 先验概率分布与后验概率分布 。先验概率分布与后验概率分布是相对而言的量,通常是要放在一起讨论的。如:$P(Y)$是直接测量的,或是我们经验中所认为的$Y$的概率分布,而当我们测量$X$后,条件概率分布$P(Y|X)$就是发生$X$后$Y$的后验概率分布

基于贝叶斯估计的星级得分排名

风格不统一 提交于 2020-01-25 11:41:12
问题阐述 互联网早已成为人们生活的一部分,没事在网上看看电影、逛逛淘宝、定定外卖(有时间还是要多出去走走)。互联网的确为我们提供了非常多的便利,但它毕竟是一个虚拟的环境,具有更多的不确定性,大多数情况下我们只能通过别人的评论及打分来判别某个商品的好坏。五星打分是许多网站采用的商品排名方法,它也是消费者最直观最简单的评价尺度,我想大部分人都会去点击那些星级排名比较高的商品以最大限度降低我们的顾虑。 多数情况下,星级排名都能准确的反映一个商品的好坏,因为它是多人的一个综合得分,减小了个人偏好的影响。但是这里有一个前提条件,即打分的人要足够多。 考虑下面两种商品: 1.A商品的星级平均得分为5(1位评论者) 2.B商品的星级平均得分为4.1(87位评论者) A、B两种商品谁的得分排名更高呢?我想大部分都认为B应该排在A的前面吧,尽管B的平均星级得分要低于A,但是它有更多的体验人数,其得分更具有说服力。 现在我们已经明白,一个商品的排名应同时考虑它的星级得分与评论人数。那么我们应该如何将二者结合起来呢?也许会有人想到,我们可以给评论人数设定一个阀值,使得小于该阀值的商品,其排名会相对较低。上述过程可以使用下面的式子来表达: 这里的 m代表平均星级得分,n代表打分的人数,k代表修正的阀值。K值该如何确定呢,它在某些极端的情况下准吗?这些都有待进一步考证。这里我们不采用该方法

朴素贝叶斯分类算法

北城余情 提交于 2020-01-25 09:20:37
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 (1)分类:给数据贴标签,通过分析已有的数据特征,对数据分成几类,已知分类结果。然后引入新数据对其归类。分类可以提高认知效率,较低认知成本。 (2)聚类:不知分类结果,通过数据一定的相似性,把那些相似的数据聚集在一起。 简述什么是监督学习与无监督学习。 监督学习: (1)每个实例都是由一组特征和一个类别结果。 (2)用有标注的数据训练模型,并产生一个推断的功能。 (3)对于新的实例,可以用于映射出该实例的类别. 无监督学习: (1)我们只知道一些特征,并不知道答案 (2)但不同实例具有一定的相似性 (3)把那些相似的聚集在一起 2.朴素贝叶斯分类算法 实例 利用关于心脏情患者的临床数据集,建立朴素贝叶斯分类模型。 有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数 目标分类变量疾病:–心梗–不稳定性心绞痛 新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7) 最可能是哪个疾病? 上传演算过程。 来源: https://www.cnblogs.com/nuan-z/p/9979463.html

小蜜团队万字长文 | 讲透对话管理模型最新研究进展

♀尐吖头ヾ 提交于 2020-01-24 08:44:55
对话管理模型背景 从人工智能研究的初期开始,人们就致力于开发高度智能化的人机对话系统。艾伦·图灵(Alan Turing)在1950年提出图灵测试[1],认为如果人类无法区分和他对话交谈的是机器还是人类,那么就可以说机器通过了图灵测试,拥有高度的智能。第一代对话系统主要是基于规则的对话系统,例如1966年MIT开发的ELIZA系统[2]是一个利用模版匹配方法的心理医疗聊天机器人,再如1970年代开始流行的基于流程图的对话系统,采用有限状态自动机模型建模对话流中的状态转移。它们的优点是内部逻辑透明,易于分析调试,但是高度依赖专家的人工干预,灵活性和可拓展性很差。 随着大数据技术的兴起,出现了基于统计学方法的数据驱动的第二代对话系统(以下简称统计对话系统)。在这个阶段,增强学习也开始被广泛研究运用,其中最具代表性的是剑桥大学Steve Young教授于2005年提出的基于部分可见马尔可夫决策过程(Partially Observable Markov Decision Process , POMDP)的统计对话系统[3]。该系统在鲁棒性上显著地优于基于规则的对话系统,它通过对观测到的语音识别结果进行贝叶斯推断,维护每轮对话状态,再根据对话状态进行对话策略的选择,从而生成自然语言回复。POMDP-based 对话系统采用了增强学习的框架,通过不断和用户模拟器或者真实用户进行交互试错