贝叶斯

算法 - 朴素贝叶斯分类算法

泄露秘密 提交于 2019-12-04 04:52:52
带你搞懂朴素贝叶斯分类算法 带你搞懂朴素贝叶斯分类算 贝叶斯分类是一类分类 算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? 从数学角度来说,分类问题可做如下定义:已知集合 和 ,确定映射规则y = f(x),使得任意 有且仅有一个 ,使得 成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下面要讲的,每一个不同的分类算法,对应着不同的核心思想。 本篇文章,我会用一个具体实例,对朴素贝叶斯算法几乎所有的重要知识点进行讲解。 2 朴素贝叶斯分类 那么既然是朴素贝叶斯分类算法

自动化模型选择

倾然丶 夕夏残阳落幕 提交于 2019-12-03 22:52:13
1、自动化模型选择核心问题 1.1搜索空间 搜索空间定义了对分类问题或回归问题的可选择的机器学习算法,如KNN、SVM、k-means等。 1.2搜索策略 搜索策略定义了使用怎样的算法可以快速准确找到最优的模型。常见的搜索方法包括贝叶斯优化、进化算法等。 2、自动化模型选择 2.1基于贝叶斯优化的自动化模型选择 2.1.1Auto-WEKA 将机器学习算法规约成组合算法选择和超惨优化(Combined Algorithm Selection and Hyper-parameter optimization, CASH)问题 (1)搜索空间 Auto-WEKA中包含39中基本元素: 27中基分类器,比如KNN、SVM、LR等 10中meta分类器,比如AdaBoostM1、LogitBoost等 2中ensemble方法,Vote和stacking 其中,meta分类器可以任选一种基分类器作为输入,ensemble分类器可以使用最多5种基分类器作为输入 数据方面,使用k-fold交叉验证 (2)搜索策略 CASH问题的优化算法有两种:Sequential Model-based Algorithm Configuration(SMAC)和Tree-structured Parzen Estimator(TPE),都属于SMBO算法( 一种贝叶斯优化的算法 ) 2.1.2auto

机器学习之超参数调优

我的梦境 提交于 2019-12-03 17:14:22
对于很多算法工程师来说,超参数调优是件非常头疼的事,这项工作比较玄学。除了根据经验设定所谓的“合理值”之外,一般很难找到合理的方法去寻找超参数的最优值。而与此同时,超参数对于模型效果的影响又至关重要。那么有木有一些可行的办法进行超参数调优呢? 超参数调优的方法 为了进行超参数调优,我们一般会采用网格搜索、随机搜索以及贝叶斯等算法。在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一是目标函数,即算法需要最大化/最小化的目标;二是搜索范围,一般通过上限和下限来确定;三是算法的其它参数,如搜索步长等。 1. 网格搜索 网格搜索可能是最简单、应用最广泛的超参数搜索算法,它通过查找搜索范围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长,网格搜索有很大的概率找到全局最优值。然而,这种搜索方法十分消耗计算资源和时间,特别是需要调优的超参数比较多的时候。因此,在实际应用中,网格搜索法一般会先使用较广的搜索范围和较大的步长,来寻找全局最优值可能的位置;然后会逐渐缩小搜索范围和步长,来寻找更精确的最优值。这种操作方案可以降低所需的时间和计算量,但由于目标函数一般是非凸的,所以很可能会错过全局最优值。 2. 随机搜索 随机搜索的思想与网格搜索比较相似,只是不再测试上界和下界之间的所有值,而是在搜索范围中随机选取样本点。它的理论依据是,如果样本点集足够大

19_朴素贝叶斯总结

删除回忆录丶 提交于 2019-12-03 01:52:22
1.朴素贝叶斯算法不需要调参,训练集误差大,结果肯定不好。 2.朴素贝叶斯分类优缺点   优点: 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。       对缺失数据不太敏感 ,算法也比较简单。       常用于文本分类, 分类准确度高,速度快。   缺点: 需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验 模型的原因导致预测效果不佳。 3.对缺失数据不太敏感,是指文本中缺少一些词,对结果影响不大。  假设了文章中一些词语和另外一些词语是独立没关系的,不太靠谱。  在训练集中去进行统计词这些工作,会对结果造成干扰。   来源: https://www.cnblogs.com/cwj2019/p/11769126.html

期望DP到底为啥逆推

人盡茶涼 提交于 2019-12-03 01:16:45
  暴力调不过爆零两行泪。   T3神奇有向图瞎走系列。   结果我的DP+高斯死活都搞不对。   发现我是的是顺推的。   题解依旧理所当然的给了逆推。   我**   然后我就研究了一下。   首先要知道这个东西。   条件概率公式:$P(B|A)=frac{P(AB)}{P(B)}$      这是神奇证明。   大概意思就是A占总体的除以B占总体的得到A占B的。   然后有一个神奇的全概率公式。      这也很好理解,就是枚举A出现的条件。   最后再来一个贝叶斯公式      也很明白,就是一般把B看作A的原因,或者说条件。   那么以普遍的有向图瞎走系列问题作为载体理解一下。   先写一下我错掉的顺推公式$f(x)=frac{f(y)}{deg(y)}+1$   就是枚举所有能到x的点,乘上转移概率,然后把所有加一提出来,看起来没什么问题。   但是有一个问题,我的概率是啥,看起来好像就是从每种从y点到x点的概率,   然后加起来?????   显然并不能知道为什么加起来,也没有乘每种情况占的权重。   显然是错的。   errrr用贝叶斯的理论解释一下。   可以接受的是,对于每个点,可以到达他的点可以认为是它的“原因”   那么认为从1出发到达点A为事件A的概率是$\sum \limits_{j=1}^{indegA}P(A|B_i)P(B_i)$  

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

信息论、贝叶斯及机器学习

匿名 (未验证) 提交于 2019-12-03 00:34:01
信息论及贝叶斯 引言 1956年,让机器来做聪明的事情的科学被称为“人工智能”。直到1997年,人类才创造出来能下象棋的电脑并打败了世界冠军。通过这样的一个例子及数字计算机的发展历史表明,感知其实是一个很难解决的问题。但是,我们的脑却能够很简单的解决这个问题,这是否意味着,数字计算机不是人脑的一个好隐喻?或者,我们需要为计算机的运行找新的运算方式? 同时信息论的发展使得我们看到物理事件和电脉冲是如何转化为精神事件和讯息的。但是,在其最初表达中存在一个根本的问题。一条信息中的信息量,或者更通俗的说,任何刺激中的信息量完全由那个刺激源来决定,这种界定信息的方法看上去很完美,实际上会产生自相矛盾的结果。 比如在图像的处理中,图片是由像素点组成的,以此形成不同的颜色。比如看这样一张图片,它是一张简单的以白色为背景的黑色正方形的图片,这张图片中的哪些要素含有最多的信息?当我们的眼睛扫过一个颜色不变的区域的时候, 因为没有任何的改变,就不会产生任何的惊奇感。而当我们眼睛扫到边缘的时候,颜色突然变化,我们就会感到“惊奇”。因此,根据信息论,图片的边缘所含的信息量是最大的,这和我们的直觉也确实是相符的,假如我们用轮廓来代替这个 物体,换句话说,只留下有信息的边缘,我们仍然能够认出这个物体。 但是,这种表述实际上是自相矛盾的,按照这种界定,当我们用眼睛扫一幅图片的时候,我们预测不到接下来会发生什么

贝叶斯分类算法实现

匿名 (未验证) 提交于 2019-12-03 00:22:01
以上是本次使用的贝叶斯数据表,本次实验我不会介绍算法,只提供实验要求及代码 ――分类算法实现 一、实验题目 分类算法实现 二、实验内容 现有西瓜挑选数据文件:dataset.txt,编程实现朴素贝叶斯算法,并判断有如下特征的瓜是否好瓜: 青绿,稍蜷,浊响,清晰,凹陷,硬滑。 三、实验目的 1、理解分类算法基本过程 2、熟悉贝叶斯分类算法 2、锻炼分析问题、解决问题并动手实践的能力 四、实验指导 1、自行采用一种语言编程实现算法(注意:计算条件概率、判别分类等核心算法需自己编程实现) 2、用课堂例子进行正确性检验 3、用户界面友好,要考虑到输入输出 4、分析结果,说明理论分析到数值计算的注意问题 代码实验(代码查询数据我是写死了的,只适合初学者阅读,有兴趣也可以尝试修改一下) package homework; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; public class bys { static ArrayList<String> list = new ArrayList

多元高斯分布的MLE、贝叶斯条件概率和线性判别分析LDA的生成方法总结

匿名 (未验证) 提交于 2019-12-03 00:22:01
Gaussian model 给出 d d 维随机向量(pattern) x x ,即随机变量 { x 1 , x 2 , . . . , x n } { x 1 , x 2 , . . . , x n } 其高斯分布表示: q ( x ; μ , ∑ ) = 1 ( 2 π ) d 2 det ( ∑ ) 1 2 exp ( 1 2 ( x μ ) T ∑ 1 ( x μ ) ) (1) (1) q ( x ; μ , ∑ ) = 1 ( 2 π ) d 2 det ( ∑ ) 1 2 exp ( 1 2 ( x μ ) T ∑ 1 ( x μ ) ) 其中 μ μ 是 d d 维度的列向量代表期望(expectation), ∑ ∑ 是 d × d d × d 的协方差矩阵(variance-covariance matrix),即: μ = E [ x ] = ∫ x q ( x ; μ , ∑ ) d x (2) (2) μ = E [ x ] = ∫ x q ( x ; μ , ∑ ) d x ∑ = V [ x ] = ∫ ( x μ ) ( x μ ) T q ( x ; μ , ∑ ) d x (3) (3) ∑ = V [ x ] = ∫ ( x μ ) ( x μ ) T q ( x ; μ , ∑ ) d x 假设 n n 个样本之间 i . i . d .