贝叶斯 | 易学教程

目前最热门的11个GitHub项目

阅读更多关于目前最热门的11个GitHub项目

GitHub使用多种语言托管数百万个存储库。我们决定列出最高速度，最受欢迎的项目清单-这项费用比我们预期的要难。GitHub召集了领先的项目，但是据我们了解，将本文放在一起，衡量特定存储库中的兴趣和活动实际上比看起来要复杂。GitHub允许用户为项目加注星标，表示热情但不一定参与。而且，您可以派生一个存储库，但从不提交任何拉取请求，这也使派生的数量成为不可靠的指标。然后是具有数千个提交但只有少数贡献者的存储库。首先让我们深入研究方法。我们如何计算此列表 GitHub的“探索”部分显示了今天，本周和本月但基于过去的分支和星型的趋势存储库。最受欢迎的项目都是用GitHub最受欢迎的语言JavaScript编写的。GitHub Archive记录了公共的GitHub时间轴，并通过Google BigQuery进行了进一步分析。我们在过去六个月中使用了对分叉和推送事件的BigQuery查询进行了相当不科学的组合，对上个月的项目数据进行了趋势分析，并且出于原始的新闻兴趣，选择了11个项目来查看GitHub最受欢迎的语言：JavaScript，Ruby，Java和Python。这些项目按字母顺序列出。引导程序 Bootstrap最初是在Twitter上开发的，是一个JavaScript项目，被称为一个时尚，直观，功能强大的前端框架，可以更快，更轻松地进行Web开发

判别模型、生成模型与朴素贝叶斯方法

阅读更多关于判别模型、生成模型与朴素贝叶斯方法

转载时请注明来源： http://www.cnblogs.com/jerrylead 1判别模型与生成模型上篇报告中提到的回归模型是判别模型，也就是根据特征值来求结果的概率。形式化表示为，在参数确定的情况下，求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。比如说要确定一只羊是山羊还是绵羊，用判别模型的方法是先从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。换一种思路，我们可以根据山羊的特征首先学习出一个山羊模型，然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征，放到山羊模型中看概率是多少，再放到绵羊模型中看概率是多少，哪个大就是哪个。形式化表示为求（也包括，y是模型结果，x是特征。利用贝叶斯公式发现两个模型的统一性：由于我们关注的是y的离散值结果中哪个概率大（比如山羊概率和绵羊概率哪个大），而并不是关心具体的概率，因此上式改写为：其中称为后验概率，称为先验概率。由，因此有时称判别模型求的是条件概率，生成模型求的是联合概率。常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。这篇博客较为详细地介绍了两个模型：

判别模型、生成模型与朴素贝叶斯方法

阅读更多关于判别模型、生成模型与朴素贝叶斯方法

机器学习-生成学习算法

阅读更多关于机器学习-生成学习算法

本讲大纲： 1.生成学习算法（Generative learning algorithm） 2.高斯判别分析（GDA，Gaussian Discriminant Analysis） 3.朴素贝叶斯（Naive Bayes） 4.拉普拉斯平滑（Laplace smoothing） 1.生成学习算法判别学习算法（discriminative learning algorithm）: 直接学习 p(y|x) （比如说logistic回归）或者说是从输入直接映射到{0,1}. 生成学习算法（generative learning algorithm）: 对 p(x|y)（和p(y)）进行建模. 简单的来说，判别学习算法的模型是通过一条分隔线把两种类别区分开，而生成学习算法是对两种可能的结果分别进行建模，然后分别和输入进行比对，计算出相应的概率。比如说良性肿瘤和恶性肿瘤的问题，对良性肿瘤建立model1（y=0），对恶性肿瘤建立model2（y=1），p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率. 根据贝叶斯公式（Bayes rule）推导出y在给定x的概率为： 2.高斯判别分析 GDA是我们要学习的第一个生成学习算法. GDA的两个假设：假设输入特征x∈Rn，并且是连续值; p(x|y)是多维正态分布（multivariate normal

【论文】动态贝叶斯网络用于时序建模及动作分类

阅读更多关于【论文】动态贝叶斯网络用于时序建模及动作分类

为督促自己更好的理解论文，而不是仅看看不思考，今后【论文】系列将会至少每周总结一篇这周看过的论文，总结需分为两部分，一部分忠于原文详细总结原理方法，另一部分阐述自己的理解，以便达到整理研究思路，提高论文写作水平的目的本周总结思考的论文为：Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks. 1 前言虽然文献的研究对象为实例级别(object-based)，但由于文献发表时间早于Alexnet的出现，所以动作实例特征的提取不涉及高级语义，仅为纹理颜色形状等低级特征，故**视频物体(VOs,video objects)**的提取前置步骤不列为总结重点，重点放在如何使用数学方法建模时序上。本文要解决的两个关键问题为： 1. what features we shall count on 2. what mapping we shall use 针对这两个关键问题，本文涉及的关键步骤有： video objects segmentation 目的：根据镜头检测的结果分割VOs 算法：change detection or object tracking（两种都用了） video objects

贝叶斯网络——D分离的介绍

阅读更多关于贝叶斯网络——D分离的介绍

D分离——贝叶斯网络文章结尾有例题分析。基本概念 D分离的概念来自于贝叶斯网络,是用来寻找条件独立的有效方法条件独立性 :有节点A,B,C,如果有 \(P(A|B,C)=P(A|B)\) 即给定B(或者说B已确定)时,C的任何信息都不能改变A的可信度度量,则称A和C是在B的条件下独立的. 条件独立性有什么用呢？答案是帮助我们简化贝叶斯网络的联合概率的计算有向网络连接中节点间的三个基本关系由于贝叶斯网络是一个DAG（有向无环图）网络。所以节点间的关系基本分为三类。 (1) 串行连接在串行连接中A通过事件B影响C，同样事件C也是用过事件B影响A。我们认为当证据B确定时，A、C条件独立。称A和C被B节点D分离。 (2) 分叉连接在分叉连接中A影响子节点，同样子节点通过A影响其他子节点。我们认为当A已知时，其各个子节点相互独立。称B、C、...、Z被A节点D分离。 (3) 汇集连接（比较特殊）在汇集连接中只有 A节点未知时，我们才能认为其父节点们相互独立。值得需要注意的是，如果某节点影响了节点A或者节点A的后代节点，我们认为其父节点们并不相互独立。如上图，事件e直接影响了A，那么B、C...、Z并不独立如上图，事件e直接影响了A的后代结点E，那么B、C...、Z并不独立。 D分离的条件下面给出D分离的严格数学定义。给定证据结点集𝛆

PRML第一章读书小结

阅读更多关于 PRML第一章读书小结

PRML第一章读书小结第一章用例子出发，较为简单的引入了概率论、模型、决策、损失、信息论的问题，作为机器学习从业者，读PRML除了巩固已有基础，还受到了很多新的启发，下面将我收到的启发总结如下。 1. 多项式曲线拟合问题多项式拟合问题作为全书的第一个引例，通过此说明了很多关键的概念。给定一个训练集，训练集由 \(x\) 的N次观测组成，记作 \(\mathbf{x} \equiv\left(x_{1}, \cdots, x_{N}\right)^{T}\) ，对应了相应的观测值 \(t\) ，记作 \(\mathbf{t} \equiv\left(t_{1}, \cdots, t_{N}\right)^{T}\) 。它们拥有了一个内在的规律，这个规律是我们想要学习的，但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值，我们需要隐式地发现内在的函数 \(sin(2\pi x)\) ，由于有限的观察和噪声的，发现这一函数（ \(sin(2\pi x)\) ）很难。概率论提供了一个框架，用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准，利用这种概率的表示，进行最优的预测。我们经常用多项式函数进行曲线拟合，即 \(y(x, \boldsymbol{w})=w_{0}+w_{1} x+w_{2} x^{2}+

第四范式涂威威：AutoML技术现状与未来展望

阅读更多关于第四范式涂威威：AutoML技术现状与未来展望

以下内容是对 AutoML技术现状与未来展望讲座的总结。 1.机器学习定义《西瓜书》中的直观定义是：利用经验来改善系统的性能。（这里的经验一般是指数据） Mitchell在《Machine Learning》一书中的较为形式化的定义是一个程序通过给它一些数据，它能够提升在某个任务上的某种度量。(如下图示) 下图很清楚明了的展示了机器学习所做的事情，不再赘述。 2.AutoML技术回顾很多时候在某一领域使用机器学习得到了效果很好的模型，但是若要在另一个领域使用该模型则不一定适用，而且通常需要大量的专业知识。正是由于受到这样的限制，所以才有了AutoML技术的发展。 2.1 AutoML研究的主要场景 2.1.1 静态闭环AutoML a. 介绍第一个场景是静态闭环AutoML，该场景是目前用的最多的场景。该场景是给定数据和度量标准之后，通过AutoML选择出效果最好的模型。该过程没有任何的人工干预，都是算法自动选择的。下图展示了机器学习的基本流程图，可以看到主要有数据预处理、特征处理、模型训练等过程，并且每个过程都包含多种方法。 b. 存在的问题而AutoML的本质工作是将各个过程的方法进行选择、组合、优化。但是AutoML存在如下问题：由于我们通常并不知道所优化的参数和预期效果之间是什么样的显示表达，所以目标函数形式未知。由于可能的组合方式太多，所以

机器学习基础系列--先验概率后验概率似然函数最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

阅读更多关于机器学习基础系列--先验概率后验概率似然函数最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式总结:先验概率后验概率以及似然函数的关系机器学习基础 1. 概率和统计概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。顾名思义：概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。在实际研究中，也是通过观察数据，推测模型是高斯分布的、指数分布的、拉普拉斯分布的等，然后，可以进一步研究，推测模型参数。一句话总结：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。 2. 先验概率百度百科定义：先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为"由因求果"问题中的"因"出现的概率。维基百科定义: 在贝叶斯统计中，某一不确定量p的先验概率分布是在考虑"观测数据"前，能表达p不确定性的概率分布。可以看到二者定义有一个共同点，即先验概率是不依靠观测数据的概率分布，也就是与其他因素独立的分布。所以可以用 \(P(θ)\) 表示。

DataWhale初级算法梳理—Task01：机器学习综述

阅读更多关于 DataWhale初级算法梳理—Task01：机器学习综述

机器学习概述 1.机器学习分类 1.1 监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。监督学习的训练集要求包括输入和输出，主要应用于分类和预测。 1.2 非监督学习：从数据集中发现隐含的某种结构，获得样本数据的结构特征，判断哪些数据比较相似。 1.3半监督学习监督学习和非监督学习的结合，其在训练阶段使用的是未标记的数据和已标记的数据，不仅要学习属性之间的结构关系，也要输出分类模型进行预测。 1.4 强化学习：强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。 2.机器学习算法 2.1 线性算法（Linear Algorithms）：线性回归（Linear Regression）、套索回归（Lasso Regression）、岭回归（Ridge Regression）、逻辑回归（Logistic Regression） 2.2 决策树（Decision Tree）： ID3、C4.5、CART 2.3 支持向量机（SVM） 2.4 朴素贝叶斯算法（Naive Bayes Algorithms）：朴素贝叶斯（Naive Bayes）

订阅贝叶斯