贝叶斯

机器学习从入门到出家

百般思念 提交于 2020-02-26 12:22:30
| 导语 简述一个2010年入坑的后台如何转向做算法和 机器学习 的历程和感悟,附录一个书单 写在前面: 本文主要介绍的是自己的一些经历,以及读过的一些书,实际应用的经验并没有介绍,包括现在很多机器学习的书一般也是侧重于理论,结合实践的时候会发现和模型比起来,数据清洗、特征工程的实际效果更明显,而这方面很难有系统的理论知识,怎么办呢?读paper,去搜索自己应用领域有关的、大公司的经典的paper,里面对数据清洗、样本筛选、特征构造、系统搭建这方面会有详细的介绍,在正式出版的书里,这块很少,所以读书只是基础,结合工作场景去应用才知道“纸上读来终觉浅,绝知此事要躬行”。另外如果碰到比较抽象的问题而难以理解的时候,有一个诀窍是,多和生活联系起来,很多计算机上的难题在生活中是有类似的事情和成熟的解决方案,比如优化与爬山;“世事洞明皆学问,人情练达即文章”-共勉 正文: 04年高考发挥失常,花了五分钟填了两个志愿,华科光电+华科计算机,感谢当年光电专业超高的分数线把我刷掉了,我被调到了计算机;收到通知书以后,原本比较坚定的复读的打算变的动摇,家境有比较糟糕,于是抱着早点读完,早点出来挣钱的想法读完了四年华科计算机;老实说,我不是一个特别爱动手的人,本科四年把所有c语言的书几乎都读了一遍,但动手能力还是很一般;保研以后,因为家里断了我所有经济支持,我花了比较多时间去挣生活费

面试必备资源!程序员面试——算法工程师面试大全第二部分

泪湿孤枕 提交于 2020-02-25 10:43:30
1.逻辑回归怎么实现多分类 方式一:修改逻辑回归的损失函数,使用 softmax 函数构造模型解决多分类问题,softmax 分 类模型会有相同于类别数的输出,输出的值为对于样本属于各个类别的概率,最后对于样本进行 预测的类型为概率值最高的那个类别. 方式二:根据每个类别都建立一个二分类器,本类别的样本标签定义为 0,其它分类样本标签 定义为 1,则有多少个类别就构造多少个逻辑回归分类器 若所有类别之间有明显的互斥则使用softmax 分类器, 若所有类别不互斥有交叉的情况则构造相应类别个数的逻辑回归分类器. 2.SVM 中什么时候用线性核什么时候用高斯核? 当数据的特征提取的较好,所包含的信息量足够大,很多问题是线性可分的那么可以采用线性核.若特征数较少,样本数适中,对于时间不敏感,遇到的问题是线性不可分的时候可以使用高 斯核来达到更好的效果. 3.什么是支持向量机,SVM 与 LR 的区别? 支持向量机为一个二分类模型,它的基本模型定义为特征空间上的间隔最大的线性分类器.而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解. LR 是参数模型,SVM 为非参数模型.LR 采用的损失函数为 logistical loss,而 SVM 采用的是 hinge loss.在学习分类器的时候,SVM 只考虑与分类最相关的少数支持向量点.LR 的模型相对简单

油管最火十分钟机器学习数学课-超参数优化

别说谁变了你拦得住时间么 提交于 2020-02-19 02:19:21
你应该选择什么样的超参数去训练你的模型?机器学习模型只是一个公式,由需要学习的参数组成的公式,但是同时也有一些参数是无法通过正常的训练过程来直接学习的。我们叫做超参数。超参数是在训练数据之前设立的模型值,这可以是随机森林,也可以是神经网络隐藏层的个数,或是逻辑回归的学习率 。我们能让这些参数自己学习得到最优值,是我们要解决的目标。 支持向量机来分类推文sweets,给出包含正负的推文,来进行二元分类。建立一个支持向量机去学习,接着可以分析新的推文,这叫情感分析。情感分析是在自然语言处理中十分流行的任务。一个支持向量机可以帮助我们精确画出一个决策界限来划分正负推文。因为是非线性的,削弱支持向量机(RSVM)用了核技巧,不再试图拟合非线性模型。我们用输入数据在新的高纬度的特征空间中画出,通过核函数或相似函数的非线性转化,再在特征空间中用线性模型,如下图所示。 我们定义推文中的核函数或相似函数为径向基函数,连个向量作为输入,输出基于下面方程的相似度。 两个推文越是相似,这个方程输出值会越高。代码中有两个高阶参数:方差权衡参数和核函数的宽度参数,可以引导我们的现在画 C_values=[0.01,0.03,0.1,0.3,1,3,10,30,100] gamma_values=[0.01,0.03,0.1,0.3,1,3,10,30,100]。两个高阶参数选择需要小心

朴素贝叶斯算法

我与影子孤独终老i 提交于 2020-02-19 02:00:44
一、朴素贝叶斯综述 \quad 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单也是最常见的一种。 \quad 对于分类问题,其实谁都不陌生,日常生活中我们每天都进行着分类过程,例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 \quad 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? \quad 从数学角度来说,分类问题可做如下定义:已知集合 C = y 1 , y 2 , . . . , y n C=y_1,y_2,...,y_n C = y 1 ​ , y 2 ​ , . . . , y n ​ 和 I = x 1 , x 2 , . . . , x n I=x_1,x_2,...,x_n I = x 1 ​ , x 2 ​ , . . . , x n ​ ,确定映射规则 y = f ( x ) y=f(x) y = f ( x ) ,使得任意 x i ∈ I x_i\in I x i ​ ∈ I 有且仅有一个 y i ∈ C y_i\in C y i ​ ∈ C ,使得 y i ∈ f ( x i ) y_i\in f(x_i) y i ​ ∈ f ( x i ​ ) 成立。 \quad 其中

机器学习之朴素贝叶斯分类

元气小坏坏 提交于 2020-02-15 07:05:02
问题 这里有八名同学在考试前一天的活动以及他们的考试结果如下表所示: 挂科 喝酒 逛街 学习 1 1 1 0 0 0 0 1 0 1 0 1 1 1 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 通过以上数据,根据朴素贝叶斯原理,判断某学生在没有喝酒,没有逛街并且学习了的情况下是否会挂科。 算法步骤 朴素贝叶斯分类问题的主要目标就是求解 P ( y = 1 ∣ x 1 , x 2 , x 3 ) P(y=1|x_1,x_2,x_3) P ( y = 1 ∣ x 1 ​ , x 2 ​ , x 3 ​ ) 以及 P ( y = 0 ∣ x 1 , x 2 , x 3 ) P(y=0|x_1,x_2,x_3) P ( y = 0 ∣ x 1 ​ , x 2 ​ , x 3 ​ ) ,通过比较两者大小来做出判断。 在这个问题中, y y y 表示是否挂科, x 1 , x 2 , x 3 x_1, x_2, x_3 x 1 ​ , x 2 ​ , x 3 ​ 分别表示是否喝酒、逛街、学习。 我们知道,对于条件概率,有以下公式: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A B ) ​ P ( B ∣ A ) = P ( A B ) P (

机器学习:朴素贝叶斯

纵然是瞬间 提交于 2020-02-15 00:20:45
朴素贝叶斯(Naive Bayesian)分类器可以给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 贝叶斯准则 公式    \(\small P(C|X)=\frac{P(X|C)}{P(X)}P(C)\) 以文本分类为例    X 是一个词组 \(\small (x_{0}, x_{1}, x_{2}, ..., x_{n})\)    P(X) 是 X 组词出现的概率    P(C) 是标签 C 出现的概率    P(X|C) 是标签 C 出现 X 词组的概率    P(C|X) 是 X 词组是分类 C 的概率 又有    \(\small P(X) = P(x_{0})*P(x_{1})*P(x_{2})*...*P(x_{n})\)    \(\small P(X|C) = P(x_{0}|C)*P(x_{1}|C)*P(x_{2}|C)*...*P(x_{n}|C)\)    对于特定的 X ,由于 P(X) 是一样的 只需要比较 \(\small P(X|C_{i})P(C_{i})\) 和 \(\small P(X|C_{j})P(C_{j})\) 就可以知道是 X 是属于分类 i 的可能性大还是属于分类 j 的可能性大 并且可以求出 X 属于不同分类的概率 朴素

统计学习方法第一章课后作业(

亡梦爱人 提交于 2020-02-12 22:57:31
原文链接: https://blog.csdn.net/liufei00001/article/details/80973809 beta分布 https://blog.csdn.net/a358463121/article/details/52562940 MLE与bayes https://blog.csdn.net/bitcarmanlee/article/details/52201858 1.1 统计学习方法的三要素是模型、策略、算法。 伯努利模型是定义在取值为0与1的随机变量上的概率分布。 统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。 极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝叶斯估计用的是贝叶斯统计学派的策略;为了得到使经验风险最小的参数值,使用的算法都是对经验风险求导,使导数为0. 定义随机变量A为一次伯努利试验的结果,A的取值为 { 0 , 1 } {0,1},概率分布为 P ( A ) P(A):                                下面分布用极大似然估计和贝叶斯估计来估计θ 的值。 极大似然估计: Ai代表第i次随机试验。解得

2.2:监督学习的基本分类模型(KNN、决策树、朴素贝叶斯)

 ̄綄美尐妖づ 提交于 2020-02-12 19:33:28
K近邻分类器(KNN) KNN:通过计算待分类数据点,与已有数据集中的所有数据点的距离。取距离最小的前K个点,根据“少数服从多数“的原则,将这个数据点划分为出现次数最多的那个类别。 sklearn中的K近邻分类器 在sklearn库中,可以使用sklearn.neighbors.KNeighborsClassifier创建一个K近邻分类器,主要参数有: • n_neighbors:用于指定分类器中K的大小( 默认值为5,注意与kmeans的区别 ) • weights:设置选中的K个点对分类结果影响的权重( 默认值为平均权重“uniform”,可以选择“distance”代表越近的点权重越高,或者传入自己编写的以距离为参数的权重计算函数 ) • algorithm:设置用于计算临近点的方法,因为当数据量很大的情况下计算当前点和所有点的距离再选出最近的k各点,这个计算量是很费时的,所以( 选项中有ball_tree、kd_tree和brute,分别代表不同的寻找邻居的优化算法,默认值为auto,根据训练数据自动选择 ) K近邻分类器的使用 创建一组数据 X 和它对应的标签 y: >>> X = [[0], [1], [2], [3]] >>> y = [0, 0, 1, 1] 使用 import 语句导入 K 近邻分类器: >>> from sklearn.neighbors

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

贝叶斯机器学习路线图

无人久伴 提交于 2020-02-12 00:25:16
这是一份贝叶斯机器学习路线图, 正在不断更新中. 路线图由简短的介绍配以相应的学习资源组成, 读者不一定要按顺序学习, 可以直接定位到自己需要的地方. 很多时候, 我们希望自学某个领域的知识, 学习能力是不差的, 但苦于不知该学哪些, 从何学起, 看什么书/视频好? 各个概念/知识点之间是怎样的联系? 这份路线图是为解决以上问题而生的, 对于学习贝叶斯机器学习应该十分有帮助. 若您发现错漏, 欢迎评论指正! 也希望有更多的人愿意分享自己所在领域的"学习路线图"! (注意: 文中部分资源链接需要科学上网方可打开) 本文目录结构如下: 核心主题 中心问题 参数估计 模型比较 非贝叶斯方法 最大似然 正则化 EM算法 基本推断算法 MAP估计 Gibbs采样 马尔科夫链蒙特卡洛(MCMC) 变分推断(Variational inference) 模型 混合高斯 因子分析 隐马尔科夫模型(HMM) 贝叶斯模型比较 贝叶斯信息准则(Bayesian information criterion) 拉普拉斯近似(Laplace approximation) 进阶主题 模型 逻辑回归(Logistic regression) 贝叶斯网络(Bayesian networks) Latent Dirichlet allocation(LDA) 线性动态系统(Linear dynamical