概率计算

【译】使用SQL生成非均匀随机数

不羁岁月 提交于 2020-03-21 22:34:27
正如”随机数的生成过程非常重要因此我们不能对其视而不见”(引自Robert R -橡树岭国家实验室),我们希望占用您一点点宝贵的时间在基于SQL Server MVP Jeff Moden 的成果的基础上完成这项工作。对于使用SQL来产生随机数来说,我们会重点讲解从均匀分布随机数(non-uniformly distributed random numbers)的基础上生成非均匀分布随机数(uniformly distributed random numbers);包括一些统计分布的基础来帮你起步。 正如我们所知,随机数在仿真中非常重要(尤其是 蒙特卡洛仿真法 ),还有随机数在 密码学 以及其它高科技领域中也扮演了同样重要的角色。除此之外在我们的SQL Server中有时也需要产生大量的随机数据来测试SQL的性能。 因为我并不是统计学家,因此我们这里仅仅来看用SQL生成并且能显而易见的看出其随机性的的随机数字,而并不会深入到数学原理来看这个随机性是真正的“随机”还是“貌似随机”我们的意图是文章中算法的正确性以及这个算法在非关键领域是否足够使用。 通常来说,由 均匀随机数转换成非均匀随机数 的技术是将均匀随机数乘以 累计分布函数(CDF) 对于目标数据的反转。但在实践中,累计分布函数是否针对特定分布存在有效哪怕是接近的函数并不好估计。但幸运的是

Attention Model详解

馋奶兔 提交于 2020-03-21 15:37:39
  要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。   AM 引言:   引用网上通俗的解释,首先,请您睁开眼并确认自己处于意识清醒状态;第二步,请找到本文最近出现的一个“Attention Model”字眼(就是“字眼”前面的两个英文单词,…)并盯住看三秒钟。好,假设此刻时间停止,在这三秒钟你眼中和脑中看到的是什么?对了,就是“Attention Model”这两个词,但是你应该意识到,其实你眼中是有除了这两个单词外的整个一副画面的,但是在你盯着看的这三秒钟,时间静止,万物无息,仿佛这个世界只有我和你…..对不起,串景了,仿佛这个世界只有“Attention Model”这两个单词。这是什么?这就是人脑的注意力模型,就是说你看到了整幅画面,但在特定的时刻t,你的意识和注意力的焦点是集中在画面中的某一个部分上,其它部分虽然还在你的眼中,但是你分配给它们的注意力资源是很少的。其实,只要你睁着眼,注意力模型就无时不刻在你身上发挥作用,比如你过马路,其实你的注意力会被更多地分配给红绿灯和来往的车辆上,虽然此时你看到了整个世界;比如你很精心地偶遇到了你心仪的异性

贝叶斯、概率分布与机器学习

浪子不回头ぞ 提交于 2020-03-21 06:39:35
本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。 贝叶斯定理的发现过程我没有找到相应的资料,不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的,而且我相信贝叶斯发现这个定理的时候,还不知道它居然有这么大的威力呢。下面我用一个小例子来推出贝叶斯定理: 已知:有N个苹果,和M个梨子,苹果为黄色的概率为20%,梨子为黄色的概率为80%,问,假如我在这堆水果中观察到了一个黄色的水果,问这个水果是梨子的概率是多少。 用数学的语言来表达,就是已知P(apple) = N / (N + M), P(pear) = M / (N + M), P(yellow|apple) = 20%, P(yellow|pear) = 80%, 求P(pear|yellow). 要想得到这个答案,我们需要 1. 要求出全部水果中为黄色的水果数目。 2. 求出黄色的梨子数目 对于1) 我们可以得到 P(yellow) * (N + M), P

《网络安全态势感知》读书笔记

蓝咒 提交于 2020-03-19 18:06:28
本书涉及面较广,但是白话较多,没有太多的干货。寸之深,亩只阔,适合作为科普读物快速阅读。 文章目录 Ⅰ 基础知识 1 开启网络安全态势感知的旅程 2 大数据平台和技术 2.1 大数据基础 2.1.1 大数据关键技术 2.1.2 大数据计算模式 2.2 大数据主流平台框架 2.2.1 Hadoop 2.2.2 Spark 2.2.3 Storm 2.3 网络安全态势感知架构 2.4 大数据采集与预处理技术 2.5 大数据存储与管理技术 2.6 大数据处理与分析技术 2.7 大数据可视化技术 Ⅱ 态势提取 3 网络安全数据范围 3.1 完整内容数据 3.2 提取内容数据 3.3 会话数据 3.4 统计数据 3.5 元数据 3.6 日志数据 3.7 告警数据 4 网络安全数据采集 4.1 制定数据采集计划 4.2 主动式采集 4.3 被动式采集 4.4 数据采集工具 4.5 采集点部署 5 网络安全数据预处理 5.1 数据清洗 5.2 数据集成 5.3 数据归约 5.4 数据变换 5.5 数据融合 Ⅲ 态势提取 6 网络安全检测与分析 6.1 入侵检测 6.1.1 IDS分类 6.1.2 入侵检测的分析方法 6.2 入侵防御 6.2.1 IPS分类 6.3 入侵容忍 6.4 安全分析 6.4.1 安全分析流程 6.4.2 数据包分析 6.4.3 计算机/网络取证 6.4.4 恶意软件分析

班课3

被刻印的时光 ゝ 提交于 2020-03-18 12:22:43
1. bayesian methods: 隶属generative model,即通过先前的概率(prior)对新加进来的点的分类进行预测;为了对这个预测进行改进,我们可以先对新加进来的点进行观察,根据它的特点进行预测 2. 如果需要考虑prior,计算maximum a posteriori hypothesis,即h MAP = arg max h∈H P(h|D) = arg max h∈H P(D|h)P(h) 公式转化中有一个P(D), 因为对结果没有影响所以可以忽略掉 若不考虑prior或默认其相等,计算maximum likelihood,即h ML = arg max hi∈H P(D|h i ) 所以posterior hypothesis=likelihood*prior 3. 因为与财务错误所要付出的代价不同,所以引入risk 4. bayes optimal classifier: 除了前面介绍的MAP以及ML之后的新方法,不计算最大,而是将所有可能性与概率结合在一起 5. Gibbs classifier相对简单一点,根据P(h|D)随机抽取hypothesis,然后根据它进行预测,速度很快且错误小于两倍的bayes optimal classifier 6. Naive Bayes Classifier: 针对有多个features时需要用到

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

概率图模型学习笔记:HMM、MEMM、CRF

孤街浪徒 提交于 2020-03-17 14:40:46
作者:Scofield 链接:https://www.zhihu.com/question/35866596/answer/236886066 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 so far till now, 我还没见到过将CRF讲的个明明白白的。一个都没。就不能不抄来抄去吗? 我打算搞一个这样的版本,无门槛理解的。 ——20170927 陆陆续续把调研学习工作完成了,虽然历时有点久,现在put上来。评论里的同学也等不及了时不时催我,所以不敢怠慢啊…… 总结的还算比较体系化,蛮长的,请读者慢慢看,肯定有收获的。 (好痛苦,这么多公式都要在知乎上重输;是在MD上写的,在知乎上没想到格式这么难看……) ——20180129 概率图模型学习笔记:HMM、MEMM、CRF 一、Preface 二、Prerequisite 2.1 概率图 2.1.1 概览 2.1.2 有向图 vs. 无向图 2.1.3 马尔科夫假设&马尔科夫性 2.2 判别式模型 vs. 生成式模型 2.3 序列建模 三、HMM 3.1 理解HMM 3.2 模型运行过程 3.2.1 学习过程 3.2.2 序列标注(解码)过程 3.2.3 序列概率过程 四、MEMM 4.1 理解MEMM 4.2 模型运行过程 4.2.1 学习过程 4.2.2 序列标注(解码)过程 4.2.3

【论文总结】LINE和DEEPWALK方法总结与比较

血红的双手。 提交于 2020-03-17 07:53:58
LINE(large-scale information network embedding) 研究问题: 大规模信息网络嵌入低维向量空间。 模型优点: 1、可适应任意类型的网络:有向、无向、有权、无权。 2、采用一阶相似度和二阶相似度结合 3、边采样优化方法解决了SGD的局限性(边的权值变换很大 时,学习率难以选择,并且权值和乘以梯度导致梯度爆炸) 模型描述: 1、一阶相似度的LINE模型(只用于无向图) 为了模拟一阶相似度,对于每个无向边(i,j),我们定义顶点vi和vj之间的联合概率如下: (sigmoid function,向量越接近,点积越大,联合概率越大。其中,ui表示节点vi对应的向量。) 经验概率可以定义为:(两点之间边的权值越大,经验概率越大) 为了保持一阶相似性,一个简单的办法是最小化下面的目标函数: 我们选择最小化两个概率分布的KL散度,用KL散度代替d(·,·)并省略一些常数,得到: KL散度公式: 只考虑一阶相似度的情况下,改变同一条边的方向对于最终结果没有什么影响。因此一阶相似度只能用于无向图,不能用于有向图。 2、二阶相似度的LINE模型 二阶相似度可以用于 有向图和无向图 。下面是针对有向图的算法(在无向图中,可以将每条边看成是两条方向相反且有相同权重的有向边)。   二阶相似度假设共享邻居的顶点彼此相似。每个顶点扮演两个角色

3.机器学习之决策树详解

半腔热情 提交于 2020-03-16 13:47:41
本篇博客主要介绍机器学习中的决策树模型。决策树算法在机器学习中算是很经典的一个算法系列。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。决策树模型是一类算法的集合,在数据挖掘十大算法中,具体的决策树算法占有两席位置,即C4.5和CART算法。 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑:  决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。 决策树是在已知各种情况发生概率((各个样本数据出现中

Softmax回归

吃可爱长大的小学妹 提交于 2020-03-14 18:47:49
Softmax回归 1. softmax回归模型   softmax回归模型是logistic回归模型在多分类问题上的扩展(logistic回归解决的是二分类问题)。   对于训练集 ,有 。   对于给定的测试输入 ,我们相拥假设函数针对每一个类别j估算出概率值 。也就是说,我们估计 得每一种分类结果出现的概率。因此我们的假设函数将要输入一个 维的向量来表示这 个估计得概率值。假设函数 形式如下:   其中 是模型的参数。 这一项对概率分布进行归一化,舍得所有概率之和为1.   softmax回归的代价函数:   上述公式是logistic回归代价函数的推广。logistic回归代价函数可以改为:   可以看到,softmax代价函数与logistic代价函数在形式上非常类似,只是在softmax损失函数中对类标记的 个可能值进行了累加。注意在softmax回归中将 分类为 的概率为: 有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化 。 例如,在梯度下降法的标准实现中,每一次迭代需要进行如下更新: 2. 权重衰减 在实际应用中,为了使算法实现更简单清楚,往往保留所有参数 ,而不任意地将某一参数设置为 0。但此时我们需要对代价函数做一个改动:加入权重衰减。权重衰减可以解决 softmax 回归的参数冗余所带来的数值问题。 我们通过添加一个权重衰减项