概率计算

深度学习入门之数学基础概念

独自空忆成欢 提交于 2019-12-06 16:33:48
深度学习之线代复习 标量、向量、矩阵和张量 标量(scalar):一个标量就是一个单独的数。 向量:一个向量是一列数,这些数是有序排列的。我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。 矩阵:矩阵是一个二维数组,其中的每一个元素被两个索引(而非 一个)所确定。 张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一 个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。 矩阵的向量相乘 在深度学习中, 我们也使用一些不那么常规的符号。我们允许矩阵和向量相 加,产生另一个矩阵:C = A + b,其中 C i , j C_{i,j} C i , j ​ = A i , j A_{i,j} A i , j ​ + b j b_j b j ​ 。换言之,向量 b 和矩阵 A 的每一行相加。这个简写方法使我们无需在加法操作前定义一个将向量 b 复制 到每一行而生成的矩阵。这种隐式地复制向量 b 到很多位置的方式,被称为广播。 A ⊙ B(dot product)被称为元素对应乘积(element-wise product)或者Hadamard乘积(Hadamard product) 矩阵乘积满足分配律,结合率,但不一定满足AB=BA的交换律。 单位矩阵和逆矩阵 任意 向量和单位矩阵相乘,都不会改变。我们将保持 n 维向量不变的单位矩阵记作 I n

使用AI算法进行手写数字识别

a 夏天 提交于 2019-12-06 16:31:14
人工智能   人工智能(Artificial Intelligence,简称AI)一词最初是在1956年Dartmouth学会上提出的,从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展。由于人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及范围极广 。 人工智能的核心问题包括建构能够跟人类似甚至超越人类的推理、知识、学习、交流、感知、使用工具和操控机械的能力等,当前人工智能已经有了初步成果,甚至在一些影像识别、语言分析、棋类游戏等等单方面的能力达到了超越人类的水平 。   人工智能的分支领域非常多,主要有演绎推理、知识表示、规划、学习、自然语言处理……等十多个分支领域,而以机器学习为代表的“学习”领域,是目前研究最广泛的分支之一。 机器学习    机器学习(Machine Learning)是人工智能的一个分支,它是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉性的学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。    机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,该算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。 深度学习   深度学习(Deep Learning)是机器学习的分支,是一种以人工神经网络为架构

朴素贝叶斯

Deadly 提交于 2019-12-06 14:42:58
朴素贝叶斯 (一)引言 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集,首先根据特征条件独立性假设来学习输入/输出 的联合概率分布(学习得到一个模型)。然后根据该模型,对于给定的新的样本数据(即不在训练数据集中),利用贝叶斯定理求出后验概率最大的输出y(类别标签)。 目标 :给定样本数据 , 我们要求的是 。其中 代表类别,共有k个类(Mnist数据集k为10)。为了求 ,我们要用到贝叶斯定理来求后验概率。下面先介绍一下贝叶斯定理(先验概率、后验概率)。 (二)理解贝叶斯公式 此部分参考博客( https://www.cnblogs.com/yemanxiaozu/p/7680761.html )。 (1) 先验概率: 根据客观事实和统计频率得出的概率。 (2) 后验概率: 某件事情已经发生了,在这个事实下,判断导致这件事情发生的不同原因的概率。后验概率要用先验概率来求解(贝叶斯公式)。 (3) 不正经例子(这个例子造着玩的,觉得有问题请看下个例子或直接转参考的博客): 有一个班级只有小倪、小杨和班花小柳三人。重磅消息:小柳和班里的某个人交往了。已知小倪(高富帅)各方面都优于小杨且小柳只能被追,问小柳的交往对象是小倪的概率是多少?(假设你回答是80%,那么你已经进行了一次后验概率的猜测。)下面用贝叶斯公式来求解一下:

N-gram模型

淺唱寂寞╮ 提交于 2019-12-06 14:42:39
N-gram模型 (一)引言 N-gram是自然语言处理中常见一种基于统计的语言模型 。 它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进行比对可以得到所给语句中每个gram出现的概率。N-gram在判断句子合理性、句子相似度比较、分词等方面有突出的表现。 (二)朴素贝叶斯(Naive Bayes) 首先我们复习一下一个非常基本的模型,朴素贝叶斯(Naive Bayes)。朴素贝叶斯的关键组成是贝叶斯公式与条件独立性假设。可以参考( https://www.yuque.com/dadahuang/tvnnrr/gksobm )。为了方便说明,我们举一个垃圾短信分类的例子: 假如你的邮箱受到了一个垃圾邮件,里面的内容包含: “性感荷官在线发牌...” 根据朴素贝叶斯的目的是计算这句话属于垃圾短信敏感句子的概率。根据前面朴素贝叶斯的介绍,由 可得: P(垃圾短信|“性感荷官在线发牌”) 正相关于 P(垃圾邮件)P(“性感荷官在线发牌”|垃圾短信) 由条件独立性假设可得: P(“****性感荷官在线发牌****”|垃圾短信) = ****P("性","感","荷","官","在","线","发","牌"****|垃圾短信)

隐马尔科夫模型

青春壹個敷衍的年華 提交于 2019-12-06 14:35:46
上一篇简单提了一下马尔科夫模型,然后这是他的升级版隐马尔科夫模型的讲解。是状态+观测序列的组合。 首先,这是马尔科夫三个假设,有观测值序列O=O1,O2,O3,O4.....OT,有隐状态序列:Q=q1,q2,q4,q5....qT 隐马尔科夫的定义: 概率计算问题 HMM的概率计算问题是HMM三大问题之一。所谓概率计算就是给定一个模型参数已知的HMM和一组观测序列,求这组观测序列由这个HMM所生成的概率。概率计算问题其实评价了模型的好坏,试想如果有两个HMM和一组观测序列,第一个HMM给出的P(O|θ1)P(O|θ1)是0.8,第二个HMM给出的P(O|θ2)P(O|θ2)是0.9。如果给定多组测试观测数据都是这样,那么显然第二个HMM模型更准确一些,性能也更好。HMM的概率计算算法主要有前向算法和后向算法。直接计算法虽然理论上可行但计算复杂度过高实际中不可行,我们直接省略掉,下面先介绍前向算法,然后介绍后向算法。 前向算法 前向算法定义了一个概念,叫 前向概率 :给定隐马尔科夫模型λλ,定义到时刻t部分观测序列为o1,o2,...oto1,o2,...ot且状态为qiqi的概率为前向概率,记作: αt(i)=P(o1,o2,...ot,it=qi|λ)αt(i)=P(o1,o2,...ot,it=qi|λ) 有了前向概率,我们就可以递推地求得前向概率αt(i)αt(i

BAT机器学习面试1000题系列

本小妞迷上赌 提交于 2019-12-06 14:35:20
几点声明: 1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列; 2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正; 3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有不当,还请指正。(也已用斜体标出) 4、部分答案由于完全是摘抄自其它的博客,所以本人就只贴出答案链接,这样既可以节省版面,也可以使排版更加美观。点击对应的问题即可跳转。 最后,此博文的排版已经经过本人整理,公式已用latex语法表示,方便读者阅读。同时链接形式也做了优化,可直接跳转至相应页面,希望能够帮助读者提高阅读体验,文中如果因为本人的整理出现纰漏,还请指出,大家共同进步! 1.请简要介绍下SVM。 SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 扩展: 支持向量机学习方法包括构建由简至繁的模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

隐马尔可夫模型求解三大问题实例剖析

做~自己de王妃 提交于 2019-12-06 14:34:37
  自然语言处理技术离不开隐马尔可夫理论。书中几个例子搞得我头晕眼花了,仔细研究后把思路整理一下,画成简单的示意图,希望能帮助大家理解。    模型实例   假设 S 是天气状况的集合,分别是“晴天”、"多云"、“下雨”,   其初始概率分布为, 晴天 多云 下雨 0.63 0.17 0.20   其状态转移概率矩阵为: - 晴 阴 雨 晴 0.500 0.375 0.125 阴 0.250 0.125 0.625 雨 0.250 0.375 0.325   假设有一位盲人住在海边,他不能通过直接观察天气的状态来预报天气。但他有一些水藻,因此可以利用水藻的干湿来预报天气。水藻的干湿与天气状况之间的关系如下表: - 干燥 稍干 潮湿 湿透 晴 0.60 0.20 0.15 0.05 阴 0.25 0.25 0.25 0.25 雨 0.05 0.10 0.35 0.50 问题1:求解观察序列的概率   针对上述模型,我们求p(干燥,潮湿,湿透)。思路很简单: 确定隐状态的初始概率分布,这是已知的,参见下图第一列。 根据隐状态到观测结果“干燥”的发射概率(参见下图第一列到第二列的箭头标注),计算得到“干燥”这个观测结果时,三个隐状态的概率,参见下图第二列。 根据隐状态之间的转移概率,重新确定在观测到“干燥”结果后的第二天,隐状态的概率分布,参见下图第三列。图中,我只标注了“晴”的计算过程

隐马尔科夫模型一(概念理解)

…衆ロ難τιáo~ 提交于 2019-12-06 14:30:00
前言 由于前一段时间在看CTC论文,里面用到了HMM中的前向后向算法,推公式的时候·一脸懵逼,所以又来学习HMM的思想,所以写篇博客做个笔记。本部分博客分为两篇,第一篇主要介绍一些基本的概念和思想,第二篇介绍理论的推导。博客的内容主要是基于<<统计学习方法>>以及其他的一些博客 模型概念 隐马尔可夫模型 :隐马尔科夫模型是关于时序的概念模型,描述了由一个隐藏的马尔科夫链随机产生不可观测的状态随机序列,再由各个状态生成一个观测而产生的观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列成为 状态序列 :每个状态生成一个观测,而由此产生的观测的随机序列,称为 观测序列 。序列的每一个位置又可以看作一个时刻。 当第一次看到上述描述时估计大都数人都会和我一样一脸蒙逼,什么是状态序列,什么又是观测序列?还有隐马尔可夫链又是神马? 举个例子,假设你有一个住得很远的朋友,他每天跟你打电话告诉你他那天做了什么.你的朋友仅仅对三种活动感兴趣:公园散步,购物以及清理房间.他选择做什么事情只凭天气.你对于他所住的地方的天气情况并不了解,但是你知道总的趋势.在他告诉你每天所做的事情基础上,你想要猜测他所在地的天气情况。其实这个就是一个隐马尔科夫模型。每一天天气的变化就是一个隐马尔科夫链(即不同状态之间的转换),其有两个状态 “雨"和"晴”,但是你无法直接观察它们,也就是说,它们对于你是隐藏的.每天

隐马尔科夫HMM 算法

断了今生、忘了曾经 提交于 2019-12-06 14:29:11
要知道隐马尔科夫我们先来了解什么是马尔科夫模型 举一个天气的例子: 我们知道某些天气出现的概率和天气之间转换的概率 比如我知道了昨天的天气,想知道今天的天气最可能是什么,由上图可以知道,昨天的天气是什么,会对今天可能的天气是有影响的。 那么这个时候我们可以说,一个一阶的马尔科夫模型是什么样的 此时,我们可以知道今天是晴天的概率是多少 计算今天是晴天的概率就需要去计算昨天所有可能天气转到今天是晴天的概率之和,也就有了上面的公式 那下面我们就可以引申出什么是隐马尔科夫模型。 相比马尔科夫模型,多了个隐,也就是在隐马尔科夫模型中,多了一个隐藏状态 同样是天气举例子,但是现在多了一个情况,我们观察海藻的情况 在这个情况下,我们是不知道天气情况的,只能从海藻的情况,来知道天气的情况 那么这个时候海藻就是我们观察出来的观察状态,天气就是我们想要知道的隐藏状态 而在这里需要注意的是,观察状态和隐藏状态并不是一一对应的,也就是说,晴天->Dry 晴天->Dryish 晴天->Damp 等等 有一个多对多的关系,一个观测序列(多个观察状态 比如说7天的海藻情况)对应的隐藏序列其实是可以有多个的。 这个是需要我们注意的。我们要做的是把所有可能的情况都要考虑进去。 在隐马尔科夫模型HMM中 ,我们有一个设定,就是以上两个,上面z是隐藏状态, 生成的是下面x观察状态 那么 这是HMM的三要素 pi A B

马尔可夫模型学习

落爺英雄遲暮 提交于 2019-12-06 14:28:29
1. 马尔科夫模型 1.1马尔可夫过程 马尔可夫过程( Markov process )是一类 随机过程 。它的原始模型 马尔可夫链 ,由俄国数学家 A.A. 马尔可夫 于 1907 年提出。该过程具有如下特性:在已知目前状态 (现在)的条件下,它未来的演变 (将来)不依赖于它以往的演变 ( 过去 ) 。 例如森林中动物头数的变化构成 —— 马尔可夫过程 。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的 布朗运动 、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。 在马尔可夫性的定义中, " 现在 " 是指固定的时刻,但实际问题中常需把马尔可夫性中的 “ 现在 ” 这个时刻概念推广为停时(见随机过程)。例如考察从圆心出发的平面上的布朗运动,如果要研究首次到达圆周的时刻 τ 以前的事件和以后的事件的条件独立性,这里 τ 为停时,并且认为 τ 是 “ 现在 ” 。如果把 “ 现在 ” 推广为停时情形的 “ 现在 ” ,在已知 “ 现在 ” 的条件下, “ 将来 ” 与 “ 过去 ” 无关,这种特性就叫强马尔可夫性。具有这种性质的马尔可夫过程叫强马尔可夫过程。在相当一段时间内,不少人认为马尔可夫过程必然是强马尔可夫过程。首次提出对强马尔可夫性需要严格证明的是 J.L. 杜布 。直到 1956 年,才有人找到马尔可夫过程不是强马尔可夫过程的例子