贝叶斯

Bayes' theorem (贝叶斯定理)

99封情书 提交于 2020-03-30 04:04:59
前言   AI时代的到来一下子让人感觉到数学知识有些捉襟见肘,为了不被这个时代淘汰,我们需要不断的学习再学习。其中最常见的就是贝叶斯定理,这个定理最早由 托马斯·贝叶斯 提出。   贝叶斯方法的诞生源于他生前为解决一个“ 逆向概率 ”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇论文之前,人们已经能够计算“正向概率”,如“袋子里N个白球,M个黑球,随机抓一个,抓到白球的概率”。而随之而来的另一个反过来的问题就是 “如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的“逆概”问题。   实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别需要提的是: 贝叶斯是机器学习的核心方法之一 。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方

机器学习工程师面试题集锦附指南:互联网篇

痞子三分冷 提交于 2020-03-24 08:16:40
3 月,跳不动了?>>> 机器学习工程师是现在的热门职位,因为其极高的薪资成为很多技术人的晋升目标。本文总结了部分一线互联网公司机器学习工程师的面试题及面试指南,希望对各位技术人员的进阶之路有所帮助。 阿里巴巴 根据参加过阿里巴巴机器学习算法工程师面试的技术人员反馈,总共需要经过四轮面试,前两轮为技术考察,第三轮是交叉面试,最后一轮是人力面试。每轮面试大概持续时间为40到50分钟,面试内容由项目经验询问和基础机器学习算法询问两部分组成。 基础机器学习算法主要包括LR和SVM有什么区别 ,libsvm和liblinear有什么区别,常用的统计量的含义, 稀疏特征如独热编码 ,维度很大,输入神经网络怎么降维,FFM算法的原理,谈谈你对特征工程的认识,LR优化方法之间的区别, 逻辑回归的概念 , EM,K-means等问题 。面试官会给出一些场景,询问求职者如何处理数据,如何建模。 可能会碰到算法题和智力题,但数量不会很多。根据反馈,算法题可能会与数组相关,比如存在一个数组,大小为98,里面的元素均为[1,100]区间内,且无重复, 不申请额外空间的情况下,在时间复杂度为O(N)情况下,找出确定的两个元素值。 华为 基础知识部分可能会让技术人员介绍几个简单的机器学习模型的主要思想,比如 贝叶斯、SVM 等。除此之外,都是一些概念问题:决策树和adaboost的区别;介绍你曾经做过的项目

贝叶斯、概率分布与机器学习

浪子不回头ぞ 提交于 2020-03-21 06:39:35
本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。 贝叶斯定理的发现过程我没有找到相应的资料,不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的,而且我相信贝叶斯发现这个定理的时候,还不知道它居然有这么大的威力呢。下面我用一个小例子来推出贝叶斯定理: 已知:有N个苹果,和M个梨子,苹果为黄色的概率为20%,梨子为黄色的概率为80%,问,假如我在这堆水果中观察到了一个黄色的水果,问这个水果是梨子的概率是多少。 用数学的语言来表达,就是已知P(apple) = N / (N + M), P(pear) = M / (N + M), P(yellow|apple) = 20%, P(yellow|pear) = 80%, 求P(pear|yellow). 要想得到这个答案,我们需要 1. 要求出全部水果中为黄色的水果数目。 2. 求出黄色的梨子数目 对于1) 我们可以得到 P(yellow) * (N + M), P

机器学习第一次个人作业

淺唱寂寞╮ 提交于 2020-03-20 13:42:01
对课程的学习心得做一个小结,也可以是学习笔记 模式识别 一般由 特征提取 、 回归器 两模块组成 大致分为 回归 与 分类 两种形式 对于输入的待识别模式,根据已有的知识进行判别决策,输出其回归值或所属类别 机器学习 通过一定量的训练样本,来学习模型的参数,有以下几类: 有监督式学习:训练样本给定真值 无监督式学习:训练样本不给真值,难度较大,用于聚类、图像分割等 半监督式学习:仅给定一部分训练样本的真值,用于网络流数据等 强化学习:真值滞后反馈,适用于需要累积多次决策才知道结果好坏的任务 分类器 MED分类器 基于欧式距离的分类器,欧式距离 \(d(x1,x2)=(x2-x1)^{T}*(x2-x1)\) 判别方法: \((x-μ_{1})^{T}(x-μ_{1})<(x-μ_{2})^{T}(x-μ_{2})? C1类 : C2类\) 受特征的量纲、分布不同的影响,易导致分类错误,一般不直接用欧式距离进行分类 MICD分类器 基于马氏距离的分类器,马氏距离 \(d(x1,x2)=(x2-x1)^{T}Σ_{x}^{-1}(x2-x1)\) 判别方法: \((x-μ_{1})^{T}Σ_{x}^{-1}(x-μ_{1})<(x-μ_{2})^{T}Σ_{x}^{-1}(x-μ_{2})?C1类:C2类\) 对特征向量进行白化,消除特征间的相关性并使特征具有相同方差

《网络安全态势感知》读书笔记

蓝咒 提交于 2020-03-19 18:06:28
本书涉及面较广,但是白话较多,没有太多的干货。寸之深,亩只阔,适合作为科普读物快速阅读。 文章目录 Ⅰ 基础知识 1 开启网络安全态势感知的旅程 2 大数据平台和技术 2.1 大数据基础 2.1.1 大数据关键技术 2.1.2 大数据计算模式 2.2 大数据主流平台框架 2.2.1 Hadoop 2.2.2 Spark 2.2.3 Storm 2.3 网络安全态势感知架构 2.4 大数据采集与预处理技术 2.5 大数据存储与管理技术 2.6 大数据处理与分析技术 2.7 大数据可视化技术 Ⅱ 态势提取 3 网络安全数据范围 3.1 完整内容数据 3.2 提取内容数据 3.3 会话数据 3.4 统计数据 3.5 元数据 3.6 日志数据 3.7 告警数据 4 网络安全数据采集 4.1 制定数据采集计划 4.2 主动式采集 4.3 被动式采集 4.4 数据采集工具 4.5 采集点部署 5 网络安全数据预处理 5.1 数据清洗 5.2 数据集成 5.3 数据归约 5.4 数据变换 5.5 数据融合 Ⅲ 态势提取 6 网络安全检测与分析 6.1 入侵检测 6.1.1 IDS分类 6.1.2 入侵检测的分析方法 6.2 入侵防御 6.2.1 IPS分类 6.3 入侵容忍 6.4 安全分析 6.4.1 安全分析流程 6.4.2 数据包分析 6.4.3 计算机/网络取证 6.4.4 恶意软件分析

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

jieba分词库的安装与使用

為{幸葍}努か 提交于 2020-03-16 19:53:38
Anaconda安装wordcloud GitHub: wordcloud 直接在Anaconda Prompt输入: conda install -c conda-forge wordcloud Anaconda安装jieba GitHub: jieba 方式一: 直接在Anaconda Prompt输入: conda install -c conda-forge jieba 。 方式二: 1.下载jieba压缩包: jieba 2. 将压缩包解压到anaconda下的pkgs目录下, 3. 进入pkgs目录下的jieba-0.39(或其他版本),打开命令行窗口(shift+右键),输入python setup.py install即可完成安装。 其他: 添加下载渠道, Anaconda 安装jieba 库报错 使用jieba分词库 jieba分词的原理 Jieba分词依靠中文词库 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 jieba库常用函数 jieba.cut(s):精确模式,返回一个可迭代的数据类型 jieba.cut(s,cut

6分钟了解所有机器学习模型

强颜欢笑 提交于 2020-03-15 01:46:23
所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。 监督学习模型 监督学习涉及基于示例输入-输出对学习将输入映射到输出的功能。 例如,如果我有一个包含两个变量的数据集,即年龄(输入)和身高(输出),那么我可以实现一个监督学习模型,以根据一个人的年龄预测其身高。 监督学习示例 重申一下,在监督学习中,有两个子类别:回归和分类。 回归模型 在回归模型中,输出是连续的。以下是一些最常见的回归模型类型。 -线性回归 线性回归示例 线性回归的概念就是简单地找到一条最适合数据的直线。线性回归的扩展包括多元线性回归(例如,找到最佳拟合的平面)和多项式回归(例如,找到最佳拟合的曲线)。 -决策树 图片来自Kaggle 决策树是一种普遍应用的模型,常用于运筹学、战略计划和机器学习。上方的每个正方形称为一个节点,你拥有的节点越多,决策树(通常)将越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建,但在准确性方面稍有不足。 -随机森林 随机森林是一种基于决策树的整体学习技术。随机森林涉及使用原始数据通过“自举法”(Bootstrapping)得到的数据集创建多个决策树,并在决策树的每个步骤中随机选择变量的子集。然后,模型选择每个决策树的所有预测的模式。这有什么意义呢?通过依靠

html5常见新增标签

最后都变了- 提交于 2020-03-13 07:21:59
本文内容: header nav article footer section aside datalist 音频标签: audio 视频标签: video 插入媒体标签: embed 新增input属性 首发日期:2018-04-25 header 功能:header标签定义页面的页眉信息。【主要用于定义结构,一般来说也可以使用其他方式来创建头部,但使用header就标注出了这个结构是头部,比其他多出了语意】 例子:比如一些网上商城的顶部logo信息 示例: <body> <header id="header" class="" style="background-color: orange;"> <div style="float:left"> Logo </div> <div style="float:right"> <span>登录</span> <span>登录</span> </div> <div style="clear:both"></div> </header><!-- /header --> </body> nav: 定义导航链接。【主要用于定义结构,一般来说也可以使用其他方式来创建导航,但使用nav就标注出了这个结构是导航,比其他多出了语意】 示例: <nav class=""> <ul> <li><a href="#">食品</a></li><!-- -->

贝叶斯分类器-----机器学习

醉酒当歌 提交于 2020-03-11 19:47:39
贝叶斯分类器中的涉及到的数学知识基本上是概率论与数理统计,其计算步骤倒是不难,西瓜书上的公式表示可能让人没有看下去的欲望,博主最开始学的时候也就是直接拿个例子计算一遍,然后再去看看西瓜书上的公式。贝叶斯中的核心计算公式就是条件概率的计算公式。 先看看条件概率的计算公式: 上面这个公式指的是事件A在事件B发生的条件下发生的概率。同理:P(B|A) = P(AB)/P(A)。这样上面也可以写成 。 接下来,我们直接看个例子,以西瓜书上的例子来看: 使用以上数据集作为训练集来训练贝叶斯分类器。 现在来了一个新的数据: 根据新样本的属性值,我们需要判断这个样本是好瓜的概率有多大。很明显我们需要计算:P(好瓜 | 色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,密度=0.697,含糖率=0.460),这些属性值的条件下,好瓜的概率。将条件概率的公式代入:P(好瓜 | 色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,密度=0.697,含糖率=0.460) = P(色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,密度=0.697,含糖率=0.460,好瓜) / P(色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,密度=0.697,含糖率=0.460) = P(好瓜) X P(色泽=青绿,根蒂=蜷缩,敲声=浊响,纹理=清晰,脐部=凹陷,密度=0