贝叶斯

贝叶斯统计概要(待修改)

こ雲淡風輕ζ 提交于 2019-12-05 05:23:20
一:频率派,贝叶斯派的哲学 现在考虑一个最最基本的问题,到底什么是概率?当然概率已经是在数学上严格的,良好定义的,这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候,又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下,下面我们看看最基本的两种哲学观,分别来自频率派和贝叶斯派, 我们这里的 “哲学” 指的是数学研究中朴素的哲学观念,而不是很严肃的哲学讨论。 1.1. 经典的统计(频率派)的哲学 : 1)概率指的是频率的极限,概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的,通常情况下未知的常数,不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质,例如95%区间估计应该保证当$N$足够大的时候,我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$,$I_{2}$,...,$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。 我们从上看到,经典频率派的统计是非常具有 唯物主义(materialism) 色彩的,而贝叶斯的哲学大不一样

# 07 朴素叶贝斯算法

狂风中的少年 提交于 2019-12-05 05:22:34
07 朴素叶贝斯算法 概率基础 概率: 一件事情发生的可能性 联合概率: 包含多个条件,且所有条件同时成立的概率。P(A,B) P(A, B) = P(A)P(B) 条件概率:事件A在另外一个事件B已经发生条件下发生的概率。 P(A|B) P(A1,A2 | B) = P(A1 | B) * P(A2 | B) 注意: 此条件概率的成立,是由于A1, A2相互独立的结果 朴素贝叶斯 朴素: 特征独立,常用文档分类 在给定词比例的基础上,求各类型文档的比例 贝叶斯公式: (多个条件下一个结果) 公式分为3个部分: P(C): 每个文档类别的概率 (某类文档数/总文档数) P(W | C):给定类别下特征(被预测文档中出现的词)的概率:计算方法:P(F1|C) = Ni/N Ni : F1词在C类别文档所有文档出现的次数 N: 所属C类别下的文档所有词出现的次数和 P(F1,F2,F3) : 预测文档中每个词的概率 文档分类: 给定一个文档的条件下,求文档所属于科技、娱乐等类别的概率。哪个类别的概率大,则归为某个类别。 文档:词1, 词2 , 词3 (词出现的数量的情况下,判断类别) P(科技|词1,词2,词3) = P(f1,f2,f3 | 科技)*P(科技)/P(W) P(娱乐|词1,词2,词3) = P(f1,f2,f3 | 娱乐)*P(娱乐)/P(W) 由于是概率大小,则P(W

贝叶斯统计概要(待修改)

£可爱£侵袭症+ 提交于 2019-12-05 03:25:02
一:贝叶斯的哲学 现在考虑一个最最基本的问题,到底什么是概率?当然概率已经是在数学上严格的,良好定义的,这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候,又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下,下面我们看看最基本的两种哲学观,分别来自频率派和贝叶斯派, 我们这里的 “哲学” 指的是数学研究中朴素的哲学观念,而不是很严肃的哲学讨论。 1.1. 经典的统计推断(频率派)的哲学 : 1)概率指的是频率的极限,概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的,通常情况下未知的常数,不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质,例如95%区间估计应该保证当$N$足够大的时候,我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$,$I_{2}$,...,$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。 我们从上看到,经典频率派的统计是非常具有 唯物主义(materialism) 色彩的,而贝叶斯的哲学大不一样,据考证贝叶斯是英格兰的一名牧师

从贝叶斯角度理解正则化

試著忘記壹切 提交于 2019-12-05 00:27:42
Table of Contents 前言1.贝叶斯法则2.正则化项3.贝叶斯正则化第$I$层贝叶斯框架第$\text{II}$层贝叶斯框架贝叶斯正则化算法步骤参考资料 前言 上一篇: 正则化 下一篇:贝叶斯正则化与提前终止法关系 1.贝叶斯法则 贝叶斯法则: P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A)称为先验概率(反映在已知B之前对事件A的认知);P(A|B)称为后验概率(反映在已知B之后对事件A的认知);P(B|A)是在事件A发生的条件下,事件B发生的条件概率;P(B)是事件的边缘概率(被用作归一化因子) 贝叶斯法则在于先验概率,如果它很大,那么后验概率也将显著增大 2.正则化项 一个包括网络输入及其对应目标输出的训练样本集: \left{ p_{1},t_{1} \right},\left{ p_{2},t_{2} \right},\cdots,\left{ p_{n},t_{n} \right} 假设目标输出通过如下方式生成: t_{q} = g(p_{q}) + \varepsilon_{q} (13.2) 其中,g()为某未知函数,\varepsilon_{q}为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数g()并且忽略噪声影响的神经网络。 神经网络训练的标准性能指标是该网络在训练集上的误差平方和: F(x) = E

贝叶斯笔记

回眸只為那壹抹淺笑 提交于 2019-12-04 21:26:32
绪论 贝叶斯学派的最基本的观点是: 任一个未知量 \(\theta\) 都可看作一个随机变量,应该用一个概率分布去描述对 \(\theta\) 的未知状况。 这个概率分布是在抽样前就有的关于 \(\theta\) 的先验信息的概率称述。 似然函数 属于联合密度函数,综合了总体信息和样本信息 \[ L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \] 贝叶斯公式的密度函数形式与离散形式,其中 \(\theta\) 的条件分布称为 \(\theta\) 的后验分布,集中了总体、样本和先验等三种信息中有关 \(\theta\) 的一切信息,排除了与之无关的信息。一般先验分布 \(\pi(\theta)\) 反映人们抽样前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。 \[ \pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \] \[ \pi(\theta_i|x)=\frac{p(x|

朴素贝叶斯实现垃圾信息分类

那年仲夏 提交于 2019-12-04 21:05:32
朴素贝叶斯实现垃圾信息分类 代码github 1.贝叶斯定义( 贝叶斯算法介绍 ) P( A |B) = P(B| A ) * P(B) / P( A ) 2.训练过程 中文分词(以下简称特征),过滤掉中英文符号,数字,字母,单个词 将所有特征组成一个去重的词向量列表 计算各个特征在所有分类下的概率 3.分类预测 将待分类数据,分词,向量化 根据贝叶斯公式计算各个分类下的概率,取最大概率即分类结果 4.优化 概率取对数,防止四舍五入对概率的影响 每个特征加1,防止单个特征概率为0 5.总结 训练 9000 条数据,预测 2000 条数据,正确率在 95 %左右 接下来还需要对特征进行处理,提高正确率,如过滤掉只出现一次的特征,加入语义相关性分析等 来源: CSDN 作者: 暗栈擎空 链接: https://blog.csdn.net/hua0704/article/details/78270046

机器学习--分类问题

纵饮孤独 提交于 2019-12-04 12:02:38
机器学习--分类问题 分类问题是监督学习的一个核心问题,它从数据中学习一个分类决策函数或分类模 型(分类器(classifier)),对新的输入进行输出预测,输出变量取有限个离散值。 决策树 决策树(decision tree)是一个树结构,每个非叶节点表示一个特征属性,每个分支 边代表这个特征属性在某个值域上的输出,每个叶节点存放一个类别。 决策过程:从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支, 直到到达叶子节点,将叶子节点存放的类别作为决策结果。  给定训练数据,如何构建决策树呢? 1. 特征选择:选取对训练数据具有分类能力的特征。 2. 决策树生成:在决策树各个点上按照一定方法选择特征,递归构建决策树。 3. 决策树剪枝:在已生成的树上减掉一些子树或者叶节点,从而简化分类树模型。 示例:假如我买了一个西瓜,它的特点是纹理清晰、根 蒂硬挺,如何根据右侧决策树判断是好瓜还是坏瓜?  核心算法 ID3算法,C4.5算法及CART算法 决策树特征选择 决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分 特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的 学习效率。 信息熵:表示随机变量的不确定性,熵越大不确定性越大。 信息增益:信息增益 = 信息熵(前) - 信息熵(后) 信息增益比: 信息增益比 =

机器学习 (一)------分类

别来无恙 提交于 2019-12-04 06:54:15
机器学习 (一)------分类 机器学习分类 机器学习分为监督学习和无监督学习两类。 监督学习是指在有标记的样本上建立机器学习的模型(这类算法知道预测什么,即目标变量的分类信息)。 无监督学习恰恰相反,是指没有标记的数据上建立学习模型。 主要任务: 分类:主要任务是将实例数据划分到合适的分类中。 回归:例如数据拟合曲线(根据给定数据点的最优拟合曲线),主要用于预测数值型数据。 如何选择合适的算法: 从上表中选择实际可用的算法,要考虑以下两个方面的问题: 1、使用机器学习算法的目的,想要算法完成何种任务; 2、需要分析和收集的数据是什么; 主要了解数据的以下特征:特征值是离散型变量还是连续型变量,特征值是否存在缺失值,何种原因造成的缺失,数据中是否存在异常值,某个特征发生的频率如何等。 使用算法创建应用程序的步骤: (1)收集数据(网络爬虫抽取、从RRS反馈或者API中得到,设备发送的实测数据); (2)准备输入数据(确保数据格式符合要求); (3)分析输入数据(人工分析以前得到的数据); (4)训练算法(将前面得到的格式化数据输入到算法,从中抽取知识或信息;无监督学习没有这一步); (5)测试算法(使用上一部机器学习得到的知识信息); (6)使用算法(将机器学习算法转换为应用程序)。 一、K-近邻算法 1、算法概述 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。

朴素贝叶斯进行新闻分类

拈花ヽ惹草 提交于 2019-12-04 06:52:35
数据来源 通过爬虫,爬取腾讯新闻三个分类每个分类大约1000条左右数据,存入excel 以上是大体的数据,三列分别为title、content、class;由于这里讲的的不是爬虫,爬虫部分省略 项目最终结构 其中主要逻辑在native_bayes.py文件中实现,utils.py为部分工具函数,tr_model.m为tf_idf模型,train_model为我们用朴素贝叶斯训练出来的分类模型。110.txt为预测时的文章内容 使用 通过run方法,来训练一个模型,predict方法去预测输入新闻的类别,代码的大部分解释都在注释里 代码实现 native_bayes.py 1 import os 2 import pandas as pd 3 from sklearn.feature_extraction.text import TfidfVectorizer 4 from sklearn.model_selection import train_test_split 5 from sklearn.naive_bayes import MultinomialNB 6 from sklearn.externals import joblib 7 8 from two_naive_bayes.utils import cut_word, rep_invalid_char 9 10 11