贝叶斯 | 易学教程

贝叶斯统计概要（待修改）

阅读更多关于贝叶斯统计概要（待修改）

一：频率派，贝叶斯派的哲学现在考虑一个最最基本的问题，到底什么是概率?当然概率已经是在数学上严格的，良好定义的，这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候，又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下，下面我们看看最基本的两种哲学观，分别来自频率派和贝叶斯派，我们这里的 “哲学” 指的是数学研究中朴素的哲学观念，而不是很严肃的哲学讨论。 1.1. 经典的统计(频率派)的哲学： 1)概率指的是频率的极限，概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的，通常情况下未知的常数，不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质，例如95%区间估计应该保证当$N$足够大的时候，我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$，$I_{2}$，...，$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。我们从上看到，经典频率派的统计是非常具有唯物主义（materialism）色彩的，而贝叶斯的哲学大不一样

# 07 朴素叶贝斯算法

阅读更多关于 # 07 朴素叶贝斯算法

07 朴素叶贝斯算法概率基础概率：一件事情发生的可能性联合概率：包含多个条件，且所有条件同时成立的概率。P(A,B) P(A, B) = P(A)P(B) 条件概率：事件A在另外一个事件B已经发生条件下发生的概率。 P(A|B) P(A1,A2 | B) = P(A1 | B) * P(A2 | B) 注意：此条件概率的成立，是由于A1, A2相互独立的结果朴素贝叶斯朴素：特征独立，常用文档分类在给定词比例的基础上，求各类型文档的比例贝叶斯公式：（多个条件下一个结果）公式分为3个部分： P(C): 每个文档类别的概率（某类文档数/总文档数） P(W | C)：给定类别下特征（被预测文档中出现的词）的概率：计算方法：P(F1|C） = Ni/N Ni : F1词在C类别文档所有文档出现的次数 N: 所属C类别下的文档所有词出现的次数和 P(F1,F2,F3) : 预测文档中每个词的概率文档分类：给定一个文档的条件下，求文档所属于科技、娱乐等类别的概率。哪个类别的概率大，则归为某个类别。文档：词1，词2 ，词3 （词出现的数量的情况下，判断类别） P(科技|词1，词2，词3） = P(f1,f2,f3 | 科技）*P(科技）/P(W) P(娱乐|词1，词2，词3） = P(f1,f2,f3 | 娱乐）*P(娱乐）/P(W) 由于是概率大小，则P(W

贝叶斯统计概要(待修改)

阅读更多关于贝叶斯统计概要(待修改)

一：贝叶斯的哲学现在考虑一个最最基本的问题，到底什么是概率?当然概率已经是在数学上严格的，良好定义的，这要归功于30年代大数学家A.N.Kolmogrov的概率论公理化。但是数学上的概率和现实世界到底是有怎样的关系?我们在用数学理论--------概率论解决实际问题的时候，又应该用什么样的观点呢?这真差不多是个哲学问题。这个问题其实必须得好好考察一下，下面我们看看最基本的两种哲学观，分别来自频率派和贝叶斯派，我们这里的 “哲学” 指的是数学研究中朴素的哲学观念，而不是很严肃的哲学讨论。 1.1. 经典的统计推断(频率派)的哲学： 1)概率指的是频率的极限，概率是真实世界的客观性质(objective property) 2)概率分布的参数都是固定的，通常情况下未知的常数，不存在"参数$\theta$满足XXX的概率是X"这种概念。 3)统计方法应该保证具有良好的极限频率性质，例如95%区间估计应该保证当$N$足够大的时候，我们选取$N$个样本集$S_{1}$, $S_{2}$,...,$S_{N}$所计算出来的相应的区间$I_{1}$，$I_{2}$，...，$I_{N}$中将有至少95%*N个区间包含我们需要估计的统计量的真实值。我们从上看到，经典频率派的统计是非常具有唯物主义（materialism）色彩的，而贝叶斯的哲学大不一样，据考证贝叶斯是英格兰的一名牧师

从贝叶斯角度理解正则化

阅读更多关于从贝叶斯角度理解正则化

Table of Contents 前言1.贝叶斯法则2.正则化项3.贝叶斯正则化第$I$层贝叶斯框架第$\text{II}$层贝叶斯框架贝叶斯正则化算法步骤参考资料前言上一篇：正则化下一篇：贝叶斯正则化与提前终止法关系 1.贝叶斯法则贝叶斯法则： P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A)称为先验概率（反映在已知B之前对事件A的认知）；P(A|B)称为后验概率（反映在已知B之后对事件A的认知）；P(B|A)是在事件A发生的条件下，事件B发生的条件概率；P(B)是事件的边缘概率（被用作归一化因子）贝叶斯法则在于先验概率，如果它很大，那么后验概率也将显著增大 2.正则化项一个包括网络输入及其对应目标输出的训练样本集： \left{ p_{1},t_{1} \right},\left{ p_{2},t_{2} \right},\cdots,\left{ p_{n},t_{n} \right} 假设目标输出通过如下方式生成： t_{q} = g(p_{q}) + \varepsilon_{q} （13.2）其中，g()为某未知函数，\varepsilon_{q}为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数g()并且忽略噪声影响的神经网络。神经网络训练的标准性能指标是该网络在训练集上的误差平方和： F(x) = E

贝叶斯笔记

阅读更多关于贝叶斯笔记

绪论贝叶斯学派的最基本的观点是: 任一个未知量 $\theta$ 都可看作一个随机变量,应该用一个概率分布去描述对 $\theta$ 的未知状况。这个概率分布是在抽样前就有的关于 $\theta$ 的先验信息的概率称述。似然函数属于联合密度函数，综合了总体信息和样本信息 \[ L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \] 贝叶斯公式的密度函数形式与离散形式，其中 $\theta$ 的条件分布称为 $\theta$ 的后验分布，集中了总体、样本和先验等三种信息中有关 $\theta$ 的一切信息，排除了与之无关的信息。一般先验分布 $\pi(\theta)$ 反映人们抽样前的认识，通过抽样信息（总体信息和样本信息）对先验进行调整形成后验分布。 \[ \pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \] \[ \pi(\theta_i|x)=\frac{p(x|

朴素贝叶斯实现垃圾信息分类

阅读更多关于朴素贝叶斯实现垃圾信息分类

朴素贝叶斯实现垃圾信息分类代码github 1.贝叶斯定义( 贝叶斯算法介绍 ) P( A |B) = P(B| A ) * P(B) / P( A ) 2.训练过程中文分词(以下简称特征)，过滤掉中英文符号，数字，字母，单个词将所有特征组成一个去重的词向量列表计算各个特征在所有分类下的概率 3.分类预测将待分类数据，分词，向量化根据贝叶斯公式计算各个分类下的概率，取最大概率即分类结果 4.优化概率取对数,防止四舍五入对概率的影响每个特征加1,防止单个特征概率为0 5.总结训练 9000 条数据，预测 2000 条数据，正确率在 95 %左右接下来还需要对特征进行处理，提高正确率，如过滤掉只出现一次的特征，加入语义相关性分析等来源： CSDN 作者：暗栈擎空链接： https://blog.csdn.net/hua0704/article/details/78270046

机器学习之朴素贝叶斯算法

阅读更多关于机器学习之朴素贝叶斯算法

地方来源： https://www.cnblogs.com/GouQ/p/11867320.html

机器学习--分类问题

阅读更多关于机器学习--分类问题

机器学习--分类问题分类问题是监督学习的一个核心问题，它从数据中学习一个分类决策函数或分类模型(分类器（classifier）)，对新的输入进行输出预测，输出变量取有限个离散值。决策树决策树（decision tree）是一个树结构，每个非叶节点表示一个特征属性，每个分支边代表这个特征属性在某个值域上的输出，每个叶节点存放一个类别。决策过程：从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。  给定训练数据，如何构建决策树呢？ 1. 特征选择：选取对训练数据具有分类能力的特征。 2. 决策树生成：在决策树各个点上按照一定方法选择特征，递归构建决策树。 3. 决策树剪枝：在已生成的树上减掉一些子树或者叶节点，从而简化分类树模型。示例：假如我买了一个西瓜，它的特点是纹理清晰、根蒂硬挺，如何根据右侧决策树判断是好瓜还是坏瓜？  核心算法 ID3算法，C4.5算法及CART算法决策树特征选择决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。信息熵：表示随机变量的不确定性，熵越大不确定性越大。信息增益：信息增益 = 信息熵(前) - 信息熵(后) 信息增益比：信息增益比 =

机器学习（一）------分类

阅读更多关于机器学习（一）------分类

机器学习（一）------分类机器学习分类机器学习分为监督学习和无监督学习两类。监督学习是指在有标记的样本上建立机器学习的模型（这类算法知道预测什么，即目标变量的分类信息）。无监督学习恰恰相反，是指没有标记的数据上建立学习模型。主要任务：分类：主要任务是将实例数据划分到合适的分类中。回归：例如数据拟合曲线（根据给定数据点的最优拟合曲线），主要用于预测数值型数据。如何选择合适的算法：从上表中选择实际可用的算法，要考虑以下两个方面的问题： 1、使用机器学习算法的目的，想要算法完成何种任务； 2、需要分析和收集的数据是什么；主要了解数据的以下特征：特征值是离散型变量还是连续型变量，特征值是否存在缺失值，何种原因造成的缺失，数据中是否存在异常值，某个特征发生的频率如何等。使用算法创建应用程序的步骤：（1）收集数据（网络爬虫抽取、从RRS反馈或者API中得到，设备发送的实测数据）；（2）准备输入数据（确保数据格式符合要求）；（3）分析输入数据（人工分析以前得到的数据）；（4）训练算法（将前面得到的格式化数据输入到算法，从中抽取知识或信息；无监督学习没有这一步）；（5）测试算法（使用上一部机器学习得到的知识信息）；（6）使用算法（将机器学习算法转换为应用程序）。一、K-近邻算法 1、算法概述简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

朴素贝叶斯进行新闻分类

阅读更多关于朴素贝叶斯进行新闻分类

数据来源通过爬虫，爬取腾讯新闻三个分类每个分类大约1000条左右数据，存入excel 以上是大体的数据，三列分别为title、content、class；由于这里讲的的不是爬虫，爬虫部分省略项目最终结构其中主要逻辑在native_bayes.py文件中实现，utils.py为部分工具函数，tr_model.m为tf_idf模型，train_model为我们用朴素贝叶斯训练出来的分类模型。110.txt为预测时的文章内容使用通过run方法，来训练一个模型，predict方法去预测输入新闻的类别，代码的大部分解释都在注释里代码实现 native_bayes.py 1 import os 2 import pandas as pd 3 from sklearn.feature_extraction.text import TfidfVectorizer 4 from sklearn.model_selection import train_test_split 5 from sklearn.naive_bayes import MultinomialNB 6 from sklearn.externals import joblib 7 8 from two_naive_bayes.utils import cut_word, rep_invalid_char 9 10 11

订阅贝叶斯