贝叶斯

教你如何追求女神

感情迁移 提交于 2020-10-07 17:52:20
教你如何追求女神 点进来的你若以为是PUA教程,请抬头看看论坛名称(明 光 大 正 内卷 计算机学院是我们学校的人口大院 上千的人口、 6 : 1 6:1 6 : 1 的经典失调的男女比例 仅次于机械工程学院 这就使得计院的市场上形成了严重的 内卷效应 像我这样的纯情小生自然是在这种水深火热的环境中被毒打多年 然而,作为一个老二次元,闲来无事到时候逛逛B站,竟从 李永乐老师 那找到了一些关于恋爱的 科学门路 。 有趣的现象 不知道大家有没有这种经历或是见闻 中学找的对象亦或是初恋,大多分的分,散的散。 能坚持下去的属实凤毛麟角 可是为什么会这样?年轻时的爱情真的这么容易变质吗? 经典问题 苏格拉底曾经给自己的学生出过这样的题目: 倘若有一片麦田,选取其中一列麦子,有个人在这列麦子中捡起一根,并且有如下规则: 此人 不能后退 ,找前面的麦子 没有两根相同长度 的麦子 只能捡起一根麦子,捡起就视为结束 苏老师要求学生找到一个方法,找到 最长 的麦子。 这在学术上被成为 Optimal Stopping Theory 简化问题 我们把 恋爱问题 套在捡麦子的问题上,把捡麦子的过程换做是女神选择男生的过程,把人简单地 按照一维向量排列 ,也就是说只有排名这种单一的标准来评判男生(多少有点物化男生的味道?) 那么女神通过某种方法,以最大概率,找到最优的男生。 数学分析 参考 维基百科

新手一看就秒懂的数据挖掘的10大算法

狂风中的少年 提交于 2020-10-05 06:23:29
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

在数学世界,都有这些美妙的数学公式是你不认识的......

可紊 提交于 2020-10-02 12:20:55
全世界只有 3.14 % 的人关注了 爆炸吧知识 什么是数学? 华罗庚说:宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不用数学...... 回首往昔,从手工时代到机械时代再到信息时代,数学让科学变成了一门有声的艺术。非欧几何的诞生加速了工业革命的进程,大数据改变了人们的生活方式...... 这其中最重要的幕后功臣便是 数学。 蒙娜丽莎的微笑 完美的黄金分割 浪漫的心形函数 ...... 自然万物速朽 唯数学是永恒 而这一切的发现,都离不开漫长数学史中的那一群人。 他们是科学史上最伟大的先驱者,引领数学浪潮,勇攀科技之巅,屹立在科学神坛上,用字符谱写最动听的数学之歌,传唱于人类的历史长河上。 为了记录下2600年的数学简史,数学文化圈的艺术收藏品 《数学之旅·闪耀人类的54个数学家》 应运而生 ,一经推出,受到模友们的热烈追捧。 金色牌面与烫边 寓意富足与好运 欧拉大神千呼万唤 终归数学之王的宝座 ???????????? 54张扑克牌 浓缩了2600年的数学文明 每张扑克 都寓意着一段千古流传的佳话 都凝聚着科学史上最璀璨的文明结晶 闪烁着智慧的光芒 《数学之旅·闪耀人类的54 个数学家》 数学艺术礼盒升级版 ♠ ♥ ♣ ♦ 鼠年钟声将敲响,金鼠献瑞自放歌 数学之旅穿越来, 两千六年数艺合 『 JOKER 』 宇宙的结构是最完善的 是最明智的上帝的创造

【机器学习】机器学习算法优缺点对比(汇总篇)

女生的网名这么多〃 提交于 2020-10-01 15:08:21
作者 | 杜博亚 来源 | 阿泽的学习笔记 「本文的目的,是务实、简洁地盘点一番当前机器学习算法」。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。 主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。「换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)」。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。

python打包exe 之打包sklearn模型中的各种坑及其解决方法。

假装没事ソ 提交于 2020-10-01 00:26:07
之前学习了如何打包,如何建立虚拟环境打包,以及如何带资源打包exe. python打包成exe 可执行文件 。教程 建立虚拟环境解决python打包exe文件过大的问题(附打包带图标,多个py文件打包exe) python将资源文件一起打包进exe 讲解(有算例) 今天在此打包资源文件基础上,学习如何打包sklearn模型。 sklearn是机器学习模型,当在现实生活中,我们有时需要跑模型,而神经网络需要的包更多,程序编写也更复杂。在仅仅是为了解决问题时,我们常常倾向于选择sklearn机器学习模型。 但是打包sklearn模型时常常出现各种错误。 我总结下我打包时出现的错误及其解决方法。 问题1:from sklearn.externals import joblib 失败 cannot import name joblib 也许你在打包后运行exe文件出现这个问题,那是因为你在安装程序所需要的库时,sklearn一般是默认最新的,而最新的skleran中已经没有joblib。 这是因为joblib已经从sklearn中移除了,可以直接改为 import joblib 注意改原始程序中的模型保存与加载代码, 改为joblib joblib使用方法 import joblib #将训练的模型保存到磁盘(value=模型名) 默认当前文件夹下 joblib.dump(filename

谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切

北战南征 提交于 2020-09-30 16:07:04
无限宽度神经网络 是近来一个重要的研究课题,但要通过实证实验来探索它们的性质,必需大规模的计算能力才行。近日,谷歌大脑公布的一篇论文介绍了他们在有限和无限神经网络方面的系统性探索成果。该研究通过大规模对比实验得到了 12 条重要的实验结论并在此过程中找到了一些新的改进方法。该文作者之一 Jascha Sohl-Dickstein 表示:「 这篇论文包含你想知道的但没有足够的计算能力探求的有关无限宽度网络的一切! 」 > > > > 近日,谷歌大脑的研究者通过大规模实证研究探讨了 宽神经网络与核(kernel)方法之间的对应关系 。在此过程中,研究者解决了一系列与无限宽度神经网络研究相关的问题,并总结得到了 12 项实验结果。 此外,实验还额外为权重衰减找到了一种改进版逐层扩展方法,可以提升有限宽度网络的泛化能力。 最后,他们还为使用 NNGP(神经网络高斯过程)和 NT(神经正切)核的预测任务找到了一种改进版的最佳实践,其中包括一种全新的集成(ensembling)技术。这些最佳实践技术让实验中每种架构对应的核在 CIFAR-10 分类任务上均取得了当前最佳的成绩。 论文链接:https://arxiv.org/pdf/2007.15801v1.pdf 当使用贝叶斯方法和梯度下降方法训练的神经网络的中间层是无限宽时,这些网络可以收敛至高斯过程或紧密相关的核方法

独家 | 为什么要尝试A/B测试的贝叶斯方法(附链接)

不问归期 提交于 2020-09-25 10:55:29
作者:Michael Armanious 翻译:欧阳锦 校对:阿笛 本文 约3400字 ,建议阅读 8 分钟 本文通过一个A/B测试的实例,介绍了贝叶斯方法的各种优点和具体的实现方法,同时也将贝叶斯推断方法与传统的频率推断估计进行了对比。 标签:数据科学,A/B测试,贝叶斯统计,机器学习 本文以一种直观的方式介绍了A/B测试、贝叶斯方法的优点以及它的具体实现方法。 “批判性思维是一个活跃而持续不断的过程。它要求我们所有人都像贝叶斯主义者那样思考,随着新信息的到来更新我们的知识。” —— Daniel J. Levitin,说谎的实地指南:信息时代的批判性思维 绪论 在深入研究使用贝叶斯估计方法之前,我们需要了解一些概念。这些概念包括: 推论统计 贝叶斯主义者与频率主义者 A / B测试 概率分布 推论统计是什么? 推论统计是指根据人口总体样本推断某个总体人口的某些信息,而不是描述整个人口总体的描述性统计信息。 当涉及推理统计时,主要有两种哲学:频率推断和贝叶斯推断。众所周知,频率推断方法是更传统的统计推断方法,因此在大多数统计课程(尤其是入门课程)中都进行了更多的研究。然而,许多人认为贝叶斯方法更接近于人类自然地认识概率的方式。 贝叶斯方法包含了根据新证据去改变一个人的想法。例如,你去看医生是因为你感觉不适,并且认为自己患有某种疾病。几个医生对你进行检查

Chat:NLP 中文短文本分类项目实践(上)

半腔热情 提交于 2020-09-23 12:44:37
目前,随着大数据、云计算对关系型数据处理技术趋向稳定成熟,各大互联网公司对关系数据的整合也已经落地成熟,笔者预测未来数据领域的挑战将主要集中在半结构化和非结构化数据的整合,NLP 技术对个人发展越来越重要,尤其在中文文本上挑战更大。 在本场 Chat 以及现在和未来工作中,笔者都将致力于中文文本的挖掘与开发,而且是通过实战来增加对中文 NLP 需求的应用理解。 由于是第一讲,笔者在本次 Chat 并没有提及较深入的 NLP 处理技术,通过 WordCloud 制作词云、用 LDA 主题模型获取文本关键词、以及用朴素贝叶斯算法和 SVM 分别对文本分类,目的是让大家对中文文本处理有一个直观了解,为后续实战提供基础保障。 下面是一些约定: 本 Chat 示例代码都是基于 Python3 写的,带有必要的注释; 中文自然语言处理(Chinese natural language processing),后面笔者全部简称 CNLP; 笔者所用开发环境是 Windows 10 操作系统和 Jupyter notebook 开发工具。相信示例代码在 Linux、Mac OS 等系统上运行也没问题。 一、WordCloud 制作词云 最近中美贸易战炒的沸沸扬扬,笔者用网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。 1. jieba 分词安装 jieba

t分布, 卡方x分布,F分布

南笙酒味 提交于 2020-08-20 00:57:47
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

《统计学习方法》第二版的代码实现

女生的网名这么多〃 提交于 2020-08-19 23:14:40
《统计学习方法》的代码实现 下载地址:https://github.com/fengdu78/lihang-code 打包下载: 链接:https://pan.baidu.com/s/13Ob6SoAnRCYEkipIwiDHZQ 提取码:arqo “机器学习初学者”公众号 李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。 《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。 今天我们将李航老师的《统计学习方法》第二版的代码进行了整理,并提供下载。 非常感谢各位朋友贡献的自己的笔记、代码! 2020年6月7日 代码更新地址: https://github.com/fengdu78/lihang-code 代码目录 第1章 统计学习方法概论 第2章 感知机 第3章 k近邻法 第4章 朴素贝叶斯 第5章 决策树 第6章 逻辑斯谛回归 第7章 支持向量机 第8章 提升方法 第9章 EM算法及其推广 第10章 隐马尔可夫模型