贝叶斯

七月算法机器学习2 数理统计与参数估计2

守給你的承諾、 提交于 2020-08-07 04:24:56
目录 重要定理与不等式 Jensen不等式 凸函数 思考 切比雪夫不等式 大数定理 大数定律具体是个什么概念? 伯努利定理 中心极限定理 用样本估计参数 为什么样本方差(sample variance)的分母是 n-1? 贝叶斯公式 初探贝叶斯定理 极大似然估计 重要定理与不等式 Jensen不等式 凸函数 凸函数的函数的期望小于期望的函数 思考 相关系数与距离相关, 可以用距离来表示两个特征的相关性 切比雪夫不等式 切比雪夫不等式到底是个什么概念? 大数定理 大数定律具体是个什么概念? 伯努利定理 中心极限定理 用样本估计参数 为什么样本方差(sample variance)的分母是 n-1? 贝叶斯公式 初探贝叶斯定理 极大似然估计 来源: oschina 链接: https://my.oschina.net/u/4359914/blog/4318456

CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总

梦想与她 提交于 2020-08-06 09:23:53
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:Derrick Mwiti 编译:ronghuaiyang 导读 边缘设备上的机器学习是未来的一大方向。 在最近结束的2020年CVPR会议上,有很多优秀的计算机视觉研究。在本文中,我们将重点关注与移动或与边缘计算相关的任务和内容。虽然并非所有这些论文都直接接触到移动相关的应用,但它们对移动端机器学习的影响是巨大的。它们推动了通常在移动设备和边缘设备上执行的ML任务,因此它们的进步对推动行业向前发展至关重要。 智能手机摄影的感知质量评估 本文作者对智能手机摄影的感知质量评估进行了深入的研究。他们还引入了智能手机摄影属性和质量(SPAQ)数据库。该数据库包含66部智能手机拍摄的11,125张照片。每个图像都有丰富的标注信息。 论文地址:http://openaccess.thecvf.com/content_CVPR_2020/html/Fang_Perceptual_Quality_Assessment_of_Smartphone_Photography_CVPR_2020_paper.html 作者还收集了人们对每张图片的看法。收集的一些信息包括图像质量、图像属性、图像属性和场景类别标签。为了进行更深入的分析,他们还记录了每张图像的可交换图像文件格式(EXIF)。然后

构建简历解析工具

試著忘記壹切 提交于 2020-08-06 08:17:37
作者|Low Wei Hong 编译|VK 来源|Medium 当我还是一名大学生的时候,我很好奇自动提取简历信息是如何工作的。我将准备各种格式的简历,并上传到招聘网站,以测试背后的算法是如何工作的。我想自己尝试建一个。因此,在最近几周的空闲时间里,我决定构建一个简历解析器。 一开始,我觉得很简单。只是用一些模式来挖掘信息,结果发现我错了!构建简历解析器很困难,简历的布局有很多种,你可以想象。 例如,有些人会把日期放在简历的标题前面,有些人不把工作经历的期限写在简历上,有些人不会在简历上列出公司。这使得简历解析器更难构建,因为没有要捕获的固定模式。 经过一个月的工作,根据我的经验,我想和大家分享哪些方法工作得很好,在开始构建自己的简历分析器之前,你应该注意哪些事情。 在详细介绍之前,这里有一段视频短片,它显示了我的简历分析器的最终结果( https://youtu.be/E-yMeqjXzEA ) 数据收集 我在多个网站上搜了800份简历。简历可以是PDF格式,也可以是doc格式。 我使用的工具是Google的Puppeter(Javascript)从几个网站收集简历。 数据收集的一个问题是寻找一个好的来源来获取简历。在你能够发现它之后,只要你不频繁地访问服务器,抓取一部分就可以了。 之后,我选择了一些简历,并手动将数据标记到每个字段。标记工作的完成是为了比较不同解析方法的性能。

程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

半腔热情 提交于 2020-08-05 03:25:12
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结 作者:July--结构之法算法之道blog之博主。 时间:2010年10月-2018年5月,一直在不断更新中.. 出处: http://blog.csdn.net/v_JULY_v 。 说明:本博客中部分文章经过不断修改、优化,已 集结出版成书 《 编程之法:面试和算法心得 》。 前言 开博4年有余,回首这4年,自己的研究兴趣从最初的编程、面试、数据结构、算法,转移到最近的数据挖掘、机器学习之上,而自己在本blog上也着实花费了巨大的时间和精力,写的东西可能也够几本书的内容了。然不管怎样,希望我能真真正正的为读者提供实实在在的价值与帮助。 下面,敬请观赏。有任何问题,欢迎随时不吝指正(同时,若你也能帮助回复blog内留言的任何朋友的问题,欢迎你随时不吝分享&回复,我们一起讨论,互帮互助,谢谢)。 无私分享,造福天下 以下是本blog内的微软面试100题系列,经典算法研究系列,程序员编程艺术系列,红黑树系列,及数据挖掘十大算法等5大经典原创系列作品与一些重要文章的集锦: 一、 微软面试100题系列 横空出世,席卷Csdn--评微软等数据结构+算法面试100题 (微软面试100题系列原题+ 答案 索引) 微软100题 (微软面试完整第1-100题) 微软面试100题2010年版 全部答案集锦 (含下载地址)

通俗理解LDA主题模型

Deadly 提交于 2020-08-04 22:54:15
通俗理解LDA主题模型 0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究,@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似只记得沈博讲了一个汪峰写歌词的例子,依然没有理解LDA到底是怎样一个东西(但理解了LDA之后,再看沈博主题模型的 PPT 会很赞)。 直到昨日下午, 机器学习班 第12次课上,邹讲完LDA之后,才真正明白LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现以前看不下去的文档再看时竟然一路都比较顺畅,一口气看完大部。看完大部后,思路清晰了,知道理解LDA,可以分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA(在本文 第4

精通 Pandas · 翻译完成

核能气质少年 提交于 2020-08-04 17:46:44
协议: CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 精通 Pandas 零、前言 一、Pandas 和数据分析简介 二、Pandas 安装和支持软件 三、Pandas 数据结构 四、Pandas 的操作,第一部分 – 索引和选择 五、Pandas 的操作,第二部分 – 数据的分组,合并和重塑 六、处理缺失数据,时间序列和 Matplotlib 绘图 七、统计之旅 – 经典方法 八、贝叶斯统计简介 九、Pandas 库体系结构 十、R 与 Pandas 的比较 十一、机器学习简介 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科) 联系方式 负责人 飞龙 : 562826179 其他 在我们的 apachecn/apachecn-ds-zh github 上提 issue. 发邮件到 Email: apachecn@163.com . 在我们的 组织学习交流群 中联系群主/管理员即可. 赞助我们

以正确的姿态入门机器学习

安稳与你 提交于 2020-08-04 14:31:20
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点 这里 可以跳转到教程。” 大家可能已经注意到了,现在很多互联网公司都在招聘机器学习工程师,这个岗位也被很多媒体定义为当前最热门的岗位之一。也许我们并没有从事相关工作,但是了解机器学习相关的知识还是很有必要的。那么,机器学习到底是什么呢?它的知识体系是什么样的呢?我们该如何入门机器学习呢?带着这种种的疑问,我学习了 极客时间 App 上的《 机器学习 40 讲 》专栏。本专栏作者和《人工智能基础课》专栏一样,也是 王天一 老师。 通过对本专栏的学习,我对机器学习有了全面的了解。在这篇文章中,我分享一下自己的学习总结,供各位想入门机器学习的朋友参考。 专栏主要内容 作者在开篇词中提到, 再炫目的技术归根结底都是基本模型与方法在具体领域问题上的组合,而理解这些基本模型与方法才是掌握机器学习,也是掌握任何一门学问的要义所在 。专栏的一大特色是融会贯通的系统性,它最重要的任务就是帮助我们把握不同模型之间的内在关联,让我们形成观察机器学习的宏观视角,找准进一步理解与创新的方向。 本专栏的主要内容分为 三个 部分,分别是: 机器学习概观 、 统计机器学习模型 、 概率图模型 。 我用下面这张思维导图来概括本专栏的主要内容。 机器学习概观 作者提到

从贝叶斯方法谈到贝叶斯网络

人盡茶涼 提交于 2020-08-04 12:24:31
从贝叶斯方法谈到贝叶斯网络 0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James O.Berger著》等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料)。 11月9日上午, 机器学习班 第9次课讲贝叶斯网络,帮助大家提炼了贝叶斯网络的几个关键点:贝叶斯网络的定义、3种结构形式、因子图、以及Summary-Product算法等等,知道了贝叶斯网络是啥,怎么做,目标是啥之后,相信看英文论文也更好看懂了。 故本文结合课程讲义及相关参考资料写就,从贝叶斯方法讲起,重点阐述贝叶斯网络,依然可以定义为一篇读书笔记或学习笔记,有任何问题,欢迎随时不吝指出,thanks。 1 贝叶斯方法 长久以来,人们对一件事情发生或不发生的概率 ,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率 虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率 是多少?”他们会想都不用想,会立马告诉你,取出白球的概率

数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

筅森魡賤 提交于 2020-07-28 20:39:22
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

自动驾驶定位技术-粒子滤波实践

ぃ、小莉子 提交于 2020-07-28 13:24:21
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:william 链接:https://zhuanlan.zhihu.com/p/128521630 本文转载自知乎专栏:自动驾驶全栈工程师,作者已授权,未经许可请勿二次转载。 Particle Filter - Kidnapped vehicle project Github: https://github.com/williamhyin/CarND-Kidnapped-Vehicle Email: williamhyin@outlook.com 1. Definition of Particle Filter 粒子滤波器是贝叶斯滤波器或马尔可夫定位滤波器的实现。粒子过滤器基于“适者生存的原理”主要用于解决定位问题。粒子滤波的优势在于易于编程并且灵活。 三种滤波器的性能对比: 正如你在上面的图片中看到的,红点是对机器人可能位置的离散猜测。每个红点都有 x 坐标、 y 坐标和方向。粒子滤波器是由几千个这样的猜测组成的机器人后验信度表示。一开始,粒子是均匀分布的,但过滤器使他们生存的比例正比于粒子与传感器测量的一致性。 1.权重(Weights): 粒子滤波器通常携带离散数量的粒子。每个粒子都是一个包含 x 坐标、 y 坐标和方向的矢量。颗粒的存活取决于它们与传感器测量结果的一致性