贝叶斯

朴素贝叶斯算法原理小结

↘锁芯ラ 提交于 2019-12-20 02:16:01
    文本主题模型之LDA(一) LDA基础      文本主题模型之LDA(二) LDA求解之Gibbs采样算法      文本主题模型之LDA(三) LDA求解之变分推断EM算法     在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的 线性判别分析LDA原理总结 。文本关注于隐含狄利克雷分布对应的LDA。 1. LDA贝叶斯模型     LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块。在 朴素贝叶斯算法原理小结 中我们也已经讲到了这套贝叶斯理论。在贝叶斯学派这里: 先验分布 + 数据(似然)= 后验分布     这点其实很好理解,因为这符合我们人的思维方式,比如你对好人和坏人的认知,先验分布为:100个好人和100个的坏人,即你认为好人坏人各占一半,现在你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布,当你被1个好人(数据)帮助了和3个坏人(数据

公元2019年,你对AI的信任有几分?

杀马特。学长 韩版系。学妹 提交于 2019-12-19 04:51:09
作者:Peter 本文 4812字 ,建议阅读 13分钟 。 本文介绍如何构建人类与AI之间的信任。 作者试图让你开始思考一个比你想象中更为紧迫的问题:如何构建人类和AI之间的信任? 作者从最近上市的三本新书中找到了一些线索。 著名经济学教授Gary Smith在新书《AI错觉》(THE AI DELUSION)中指出了一种人类在本时代可能有的“错觉”。 他说,人们常常因为AI在某些具体任务上超越了人类的表现,就忽视了当前AI本质上仍然无法像人类一样思考和推理的事实,于是产生了AI将超越并取代人类智能的“错觉”。 但事实上,机器的智能和人的智能并不一样(并非同类),它们无法相互取代。如同本世纪初的“.net泡沫”,最近这几年的“AI热”中也弥漫着不切实际的预期。作者指出,随着AI应用的深入,泡沫终将破灭。 这种警醒的背后,反映出的是人类在面对AI时如何构建信任的问题。当AI的应用场景从2C走向2B时,这个问题将变得更加紧迫。为什么? 因为从2C到2B的转变,意味着AI的应用要离开内容推荐、语言识别等用户对错误容忍度较高的领域,走入自动驾驶、医疗诊断、金融决策等涉及人类切身利益的“深水区”中。这意味着,即使人们知道AI的效能比人类专家的更好,但人们还是会继续对AI的应用保持谨慎和怀疑。 于是,如何打消人类对AI的顾虑成为一个重要的问题,AI不仅需要证明“自己”能提升人类的效能

kaggle --不文明用语检测

*爱你&永不变心* 提交于 2019-12-17 15:36:17
https://www.kaggle.com/jhoward/nb-svm-strong-linear-baseline 介绍 该内核展示了如何使用NBSVM(朴素贝叶斯-支持向量机)为“有毒评论分类挑战赛”创建强大的基准。 NBSVM是Sida Wang和Chris Manning在《基线与双轨:简单,良好的情感和主题分类》一文中介绍的。 在此内核中,我们使用sklearn的逻辑回归,而不是SVM,尽管实际上两者几乎相同(sklearn在幕后使用liblinear库)。 如果您不熟悉朴素的贝叶斯和成语的单词矩阵,我已经提供了fast.ai即将发布的实用机器学习课程视频之一的预览,其中介绍了此主题。 这里是视频部分的链接,该部分对此进行了讨论:朴素贝叶斯视频。 train['comment_text'][2] "Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info." lens

朴素贝叶斯进行文本分类

a 夏天 提交于 2019-12-17 04:23:57
这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中、居左、居右 SmartyPants 创建一个自定义列表 如何创建一个注脚 注释也是必不可少的 KaTeX数学公式 新的甘特图功能,丰富你的文章 UML 图表 FLowchart流程图 导出与导入 导出 导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 全新的界面设计 ,将会带来全新的写作体验; 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示; 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示; 全新的 KaTeX数学公式 语法; 增加了支持 甘特图的mermaid语法 1 功能; 增加了 多屏幕编辑 Markdown文章功能; 增加了 焦点写作模式、预览模式、简洁写作模式

统计推断

别来无恙 提交于 2019-12-17 03:48:56
贝叶斯统计 贝叶斯估计 1.总体信息:即总体分布或总体所属分布族给我们的信息。譬如,“总提示正太分布”这句话九个我们带来很多信息;它的密度函数是一条钟形曲线;它的一切阶矩都存在;基于正态分布有许多成熟的统计推断方法可供我们选用等。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。 2.样本信息,即样本提供给我们的信息,这是最“新鲜”的信息,并且越多越好,我们希望通过样本对总体分布或总体的某些特种做出较精确的统计推断。没有样本,就没有统计学可言。 基于以上两种信息统计推断的统计学就称为经典统计学。前述的矩估计、最大似然估计、最小方差无偏估计等都属于经典统计学范畴。然而我们周围还存在第三种信息-先验信息,它也可用于统计推断。 3.先验信息,即在抽样之前有关统计问题的一些信息。一般来说,先验信息来源于经验和历史资料。先验信息在日常生活和工作中都很重要的,人们自觉或不自居地在使用它。 贝叶斯公式的密度函数形式 1.依赖于参数θ的密度函数在经典统计中记为P(x;θ),它表示参数空间θ中不同的θ对应不同的分布。在贝叶斯统计中应记为p(x|θ),它表示随机变量θ给定某个值时,X的条件密度函数。 2.根据参数θ的先验信息确定先验分布π(θ) 3.从贝叶斯观点看,样本x=(x1,x2,…,xn)的产生要分两步进行。首先,设想从先验分布π(θ)产生一个样本θ’。这一步是“老天爷”做的

机器学习(十三)朴素贝叶斯

爷,独闯天下 提交于 2019-12-16 06:02:59
机器学习(十三) 朴素贝叶斯 贝叶斯公式: 例一: 现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少? 假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875 例二: 一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少? 我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20 365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9 (2/7300) / (3/7) = 0.00058 一般公式: 朴素贝叶斯原理 例: 大学的时候,某男生经常去007自习室上晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,自习室又不开空调

贝叶斯深度学习笔记

百般思念 提交于 2019-12-16 02:53:38
参考资料: 贝叶斯深度学习-博客园 1. 贝叶斯公式: p ( z ∣ x ) = p ( x , z ) p ( x ) = p ( x ∣ z ) p ( z ) p ( x ) (1) p(z | x)=\frac{p(x, z)}{p(x)}=\frac{p(x | z) p(z)}{p(x)} \tag{1} p ( z ∣ x ) = p ( x ) p ( x , z ) ​ = p ( x ) p ( x ∣ z ) p ( z ) ​ ( 1 ) 其中, p ( z ∣ x ) p(z|x) p ( z ∣ x ) 为后验. p ( x , z ) p(x,z) p ( x , z ) 为联合概率. p ( x ∣ z ) p(x|z) p ( x ∣ z ) 为似然. p ( z ) p(z) p ( z ) 为先验 p ( x ) p(x) p ( x ) 为 evidence (可以理解为事件的观测值). 引入 全概率公式 p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z p(x)=\int p(x | z) p(z) d z p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z , 式1可以变换为 p ( z ∣ x ) = p ( x ∣ z ) p ( z ) ∫ p ( x ∣ z ) p ( z ) d z

中文文本分类

喜夏-厌秋 提交于 2019-12-14 21:33:19
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 中文分词算法:基于概率图模型的条件机场(CRF) 文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示 分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分 分词的目的:文本实现了最基础的结构化 存储分词利用的数据结构:Bunch 机器学习算法库:Scikit-Learn //可以学习各种算法:http://scikit-learn.org/stable/ 停用词 //下载 http://www.threedweb.cn/thread-1294-1-1.html 权重策略:TF-IDF 词频逆文档频率 词频(Term Frequency):某个给定的词语在该文件中出现的频率 逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量 算法参见书: 常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法 训练步骤:分词-》生成文件词向量文件-》词向量模型 分来结果评估 三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure 朴素贝叶斯算法的基本原理和简单的Python实现 朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的) 朴素贝叶斯分类的正式定义: 书 kNN