概率计算

维特比算法 实现中文分词 python实现

半腔热情 提交于 2020-01-06 16:39:11
本文转载自: https://zhuanlan.zhihu.com/p/58163299 最近我在学习自然语言处理,相信大家都知道NLP的第一步就是学分词,但分词≠自然语言处理。现如今 分词工具 及如何使用网上一大堆。我想和大家分享的是结巴分词核心内容,一起探究分词的本质。 (1)、基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 什么是DAG(有向无环图)? 例如,句子“去北京大学玩”对应的DAG为{0:[0], 1:[1,2,4], 2:[2], 3:[3,4], 4:[4], 5:[5]}。DAG中{0:[0]}就表示0位置对应的是词,就是说0~0,即“去”这个词在Dict(词典库,里面记录每个词的频次)中是词条。DAG中{1:[1,2,4]},就是表示从1位置开始,在1,2,4位置都是词,就是说1~1、1~2、1~4即“北”“北京”“北京大学”这三个也是词,出现在Dict中。句子“去北京大学玩”的DAG毕竟比较短可以一眼看出来,现在来了另外一个句子“经常有意见分歧”,如何得到它的DAG呢?这时候就得通过代码来实现了。 Dict= {"经常":0.1,"经":0.05,"有":0.1, "常":0.001,"有意见":0.1, "歧":0.001,"意见":0.2,"分歧":0.2,"见":0.05,"意":0.05,"见分歧":0.05,"分

D. Santa's Bot

夙愿已清 提交于 2019-12-31 23:03:13
题意:圣诞老人收到一些信件来自n个不同的小朋友这年,当然,每个孩子都想要从圣诞老人那得到一些礼物,尤其,第i个小朋友想要ki个不同的礼物中的一个作为他的礼物,一些礼物可能被多个小孩所拥有。 圣诞老人很忙碌,所以他想要新年机器人去选择一些礼物给孩子,不幸的是,机器人算法出了一些Bug,为了选择一些礼物给孩子,机器人执行如下的操作: 1.等概率地从n个孩子中选择孩子x 2.从第x个小孩想要的kx个礼物中等概率地选出y礼物 3.等概率地选择一个小孩z去接受这个礼物 (x, y, x)被叫做机器人的一种选择 如果小孩z列出的礼物中存在y礼物 ,那么这个选择就是有效的。 计算这个选择有效的概率 输入: 第一行表示n个小孩 接下来n行,第i行表示第i个小孩想要的圣诞礼物列表,ki, ai1, ai2, ... aiki, 一个礼物在同一个列表里不会出现多次 输出: 打印机器人有效选择的概率,把这个概率表示为不可约分数 \(\frac{x}{y}\) ,你必须打印 \(x \cdot{y}^{-1} mod 998244353\) 分析:题目的意思是说有n个小孩子,每个孩子有ki件礼物是他们想要的,现在随机地挑出一个孩子去接受这个礼物,并且这个礼物也是存在他想要的礼物单里的 询问这个概率 假设我们现在挑出来一个孩子x,挑出他的概率为1 / n,从他的愿望单里选出一个礼物,概率变为1 / n *

语言模型

杀马特。学长 韩版系。学妹 提交于 2019-12-30 22:45:34
语言模型定义 语言模型是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率 N-gram模型 是一种基于统计的语言模型 基于统计概率,计算一个句子的概率大小概率的公式为: 当概率值越大,则说明句子越合理,概率小,则说明不合理 上面的公式不能直接进行计算,使用条件概率可以将上述公式转换成: 条件概率: P(B|A)表示:A条件下B发生的概率 在条件概率的公式如下所示: 直接将计算一个句子的公式按照条件概率展开计算,即对每一个词都考虑到它前面的所有词,这在实际应用中意义不大,因此引出N-gram模型 1)马尔可夫假设 马尔可夫假设是指每个词出现的概率只跟它前面的少数几个词有关,例如,二阶马尔可夫假设只考虑前面两个词,相应的语言模型是三元模型 一元模型(unigram model): 二元模型(bigram model): 三元模型(trigram model): 2)极大似然估计 可以通过对训练语料做极大似然估计: 3)链式法则 以二元模型为例, N-gram模型的优缺点 1)优点 训练方便,仅仅是一个统计词频的工作 2)缺点 无法获得相对较长的上下文依赖 泛化能力比较弱,只是基于频次进行统计,更多的特征信息没有学到,也没办法进行学到 来源: CSDN 作者: 飞翔的绵羊 链接: https://blog.csdn.net/yangfengling1023/article

先验概率与后验概率的区别(老迷惑了)

心已入冬 提交于 2019-12-30 20:47:26
此为Bayesian先生,敬仰吧,同志们! 先验 ( A priori ;又译: 先天 )在 拉丁文 中指“来自先前的东西”,或稍稍引申指“在 经验 之前”。 近代 西方 传统中,认为先验指无需经验或先于经验获得的 知识 。它通常与 后验 知识相比较,后验意指“在经验之后”,需要经验。这一区分来自于中世纪逻辑所区分的两种论证,从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。 先验概率是指根据以往经验和分析得到的概率,如全概率公式 中的 ,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率。 先验概率的分类: 利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。 后验概率是指通过调查或其它方式获取新的附加信息,利用 贝叶斯公式 对先验概率进行修正,而后得到的概率。 先验概率和后验概率的区别: 先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

多传感器融合的数学原理依据

守給你的承諾、 提交于 2019-12-27 03:03:26
在实际的应用中,基于鲁棒性考虑,会采用多传感器综合的技术,而如何将传感器的数据进行融合,这是需要数学推导的。基于中心极限定理与方便处理(实际上具体情况需要结合实际来测试实际分布,不能直接做假设,本文为了简单说明作此处理),我们可以采用P(θ)描述待测量真值为θ的概率,该概率实际上是P(θ|x1)、P(θ|x2)等概率的乘积,而x1、x2为传感器示数,计算θ的实际情况应当采用最大似然的方式求解,θ应当等于(μ / detail) ^ 2的和除以(1 / detail) ^ 2 来源: CSDN 作者: DeadAngle_2018 链接: https://blog.csdn.net/qq_34133578/article/details/103723001

贝叶斯决策理论(1)

蹲街弑〆低调 提交于 2019-12-26 18:11:41
  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分析。      概率有时也被解释为频率或可信度,但是在日常生活中,人们讨论的概率经常包含着主观的因素,并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%,并不是说出现的频率是10%,因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性,由于是主观的,因此不同的人将给出不同的概率。   在数学上,概率研究的是随机现象背后的客观规律。我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动作),结果在出现在E中的次数占比趋近于某个常量,这个常数极限是事件E的概率,用P(E)表示。   我们需要对现实世界建模,将现实世界的动作映射为函数,动作结果映射为数。比如把投硬币看作f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)

参数估计

核能气质少年 提交于 2019-12-26 11:21:57
中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越 接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被 认为是服从正态分布的。 参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供 单一 的估计值,而区间估计在点估计的基础上还提供了一个 误差界限 ,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。 我们可以通过中心极限定理来 倒推 参数估计方法,整个倒推的思路是这样的: 区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。 但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱? 所以,在最终只用一个样本来估计总体前

用蒙特卡罗模拟球π的值

吃可爱长大的小学妹 提交于 2019-12-25 13:19:31
  蒙特卡罗 (Monte Carlo)方法,又称随机抽样或统计试验方法,属于计算 数学 的一个分支,它是在本世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而 蒙特卡罗 方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。这也是我们采用该方法的原因。     基本原理及思想 编辑 当所要求解的问题是某种事件出现的概率,或者是某个随机变量的期望值时,它们可以通过某种“试验”的方法,得到这种事件出现的频率,或者这个随机变数的平均值,并用它们作为问题的解。这就是蒙特卡罗方法的基本思想。蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。可以把蒙特卡罗解题归结为三个主要步骤:构造或描述概率过程;实现从已知概率分布抽样;建立各种估计量。 蒙特卡罗解题三个主要步骤 编辑 构造或描述概率过程: 对于本身就具有随机性质的问题,如粒子输运问题,主要是正确描述和模拟这个概率过程,对于本来不是随机性质的确定性问题,比如计算定积分,就必须事先构造一个人为的概率过程,它的某些参量正好是所要求问题的解。即要将不具有随机性质的问题转化为随机性质的问题。

机器学习距离公式总结

*爱你&永不变心* 提交于 2019-12-25 13:11:40
作者:daniel-D 出处:http://www.cnblogs.com/daniel-D/ 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a 4) d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: (两边之和大于第三边) 这篇博客主要介绍机器学习和数据挖掘中一些常见的距离公式,包括: 闵可夫斯基距离 欧几里得距离 曼哈顿距离 切比雪夫距离 马氏距离 余弦相似度 皮尔逊相关系数 汉明距离 杰卡德相似系数 编辑距离 DTW 距离 KL 散度 1. 闵可夫斯基距离 闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,假设数值点 P 和 Q 坐标如下: 那么,闵可夫斯基距离定义为: 该距离最常用的 p 是 2 和 1, 前者是欧几里得距离