损失函数

GBDT算法

时间秒杀一切 提交于 2019-11-26 23:58:12
一、简介 在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是 f t-1 (x) 损失函数是 L(y,f t-1 (x)) 我们本轮迭代的目标是学习到弱学习器h t (x),让本轮的损失 L(t,f t-1 (x)+h t (x)) 最小。 假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。 也就是说我们要求的是高偏差,然后一步一步慢慢缩小这个偏差。 二、负梯度拟合 初始化若学习分类器是: 每一轮都有一个损失函数要去拟合,因为是偏差,所以找不到一个真实值来去拟合。因此提出了一种方法: 用损失函数的负梯度来拟合本轮损失的近似值,进而拟合一个cart回归树 。 第t轮的第i个样本的损失函数的负梯度表示为: 利用(x i ,r ti )(i=1,2,...m),我们可以拟合一颗CART回归树,得到了第t颗回归树,其对应的叶节点区域Rtj,j=1,2,...,J。其中J为叶子节点的个数。 每个叶子节点里有多个样本,然后求出使损失函数最小时的输出值ct j (类似于标签): 这样我们就得到了本轮的决策树拟合函数如下: 本轮最终得到的强学习器的表达式如下: 三、GBDT常用损失函数 分类 指数损失函数

加法模型与前向分布算法

可紊 提交于 2019-11-26 21:54:09
加法模型和前向分布算法 如下图所示的便是一个 加法模型 其中, 称为基函数, 称为基函数的参数, 称为基函数的系数。 在给定训练数据及损失函数 的条件下,学习加法模型 成为经验风险极小化问题,即损失函数极小化问题: 随后,该问题可以作如此简化:从前向后,每一步只学习一个基函数及其系数,逐步逼近上式,即:每步只优化如下损失函数: 这个优化方法便就是所谓的前向分步算法。 下面,咱们来具体看下 前向分步算法 的算法流程: 输入:训练数据集 损失函数: 基函数集: 输出:加法模型 算法步骤: 1. 初始化 2. 对于m=1,2,..M a)极小化损失函数 得到参数 和 。 b)更新 3. 最终得到加法模型 就这样,前向分步算法将同时求解从m=1到M的所有参数( 、 )的优化问题简化为逐次求解各个 、 (1≤m≤M)的优化问题。 前行分布算法和Adaboost的关系 Adaboost 还有另外一种理解,即可以认为其模型是加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法。其实, Adaboost算法就是前向分步算法的一个特例,Adaboost 中,各个基本分类器就相当于加法模型中的基函数,且其损失函数为指数函数。 换句话说,当前向分步算法中的基函数为Adaboost中的基本分类器时,加法模型等价于Adaboost的最终分类器 你甚至可以说

2 感知机

痞子三分冷 提交于 2019-11-26 14:29:03
感知机模型 感知机由输入空间到输出空间的函数为: 其中,w和b为感知机模型参数,w∊R n 叫作权值(weight)或权值向量(weight vector),b∊R叫作偏置(bias),w·x表示w和x的内积。sign是符号函数。 感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器, 即函数集合{f|f(x)=w·x+b}。 感知机的几何解释,线性方程 w·x+b=0 对应于特征空间的一个超平面S 该超平面将特征空间划分为两部分,称为分离超平面(二维时退化为直线) 感知机学习策略 数据集的线性可分性 如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,则称数据集T为线性可分数据集 。 感知机学习策略 损失函数的一个自然选择是误分类点的总数。但是,这样的损失函数不是参数w,b的 连续可导 函数,不易优化。 损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的: 误分类点x i 到超平面 S的距离: 感知机sign(w·x+b)学习的损失函数定义为: 其中M为误分类点的集合。该损失函数就是感知机学习的经验风险函数。 感知机学习的策略是在假设空间中选取使上述损失函数最小的模型参数 w,b,即感知机模型。 感知机学习算法

机器学习 之损失函数

ε祈祈猫儿з 提交于 2019-11-26 12:21:33
目录 0、损失函数简介 0.1 对数损失函数 0.2 平方损失函数 0.3 指数损失函数??含义 0.4 合页损失函数 0.5 其他损失函数 1、KNN损失函数 2、朴素贝叶斯 3、决策树 4、逻辑回归 5、支持向量机 6、Adaboost提升算法 7、EM算法 8、隐式马尔科夫模型 9、条件随机场 12、线性回归 10、XGBoost算法 11、LightGBM算法三 0、损失函数简介 损失函数是用来估量你模型的预测值f(x)与真实值y之间的不一致程度,它是一个非负实值函数,通常使用 L(y, f(x)) 来表示。损失函数越小,模型的鲁棒性就越好。 损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型函数包括了经验风险项和正则项,表达公式为: \[ \theta ^{*} = argmin_{\theta} \frac{1}{N} \sum_{i=1}^{N} L(y_{i}, f(x_{i}; \theta)) + \lambda \Phi (\theta)\] 前面的均值函数表示的是经验风险函数,L表示损失函数,后面的 \(\Phi\) 是正则化项或者惩罚项。可以是L1,也可以是L2。整个表达式就是使目标函数最小时的 \(\theta\) 值。 令数据集为{X,y},其中 \(X = {x_{1}, x_{2}, ... , x_{N}}\) , \(x_{i

损失函数

本秂侑毒 提交于 2019-11-26 11:34:55
1. 何为损失函数: 在机器学习里面,基本上所有的算法都是在对一个目标函数进行最大化或者最小化的一个过程,那么我们常常把这个最小化的函数称为损失函数,一般采用梯度下降法求解这个损失函数的最小值所对应的参数。可以认为,损失函数为我们的模型优化提供了方向。 2. 损失函数类型: 2.1 平方损失L2 (回归损失函数):预测值和目标值之间差值的平方和 2.2 平方绝对误差L1 2.3 对数损失函数(Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 2.4 指数损失函数(Exponential Loss) :主要用于Adaboost 集成学习算法中; 2.5 铰链损失函数(Hinge Loss):主要用于支持向量机(SVM) 中 3. 对数损失函数 对数损失函数用到了极大似然估计思想,p(y|x)。 假设样本服从伯努利分布(0-1)分布,然后求得改分布的似然函数,接着取对数求极值(最小化负的似然函数)。利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值 4. 交叉熵 交叉熵刻画的是实际的输出(概率)和期望的输出(概率)的距离,交叉熵的值越小,两个概率分布越接近。 log 类型损失函数的优势可以将连乘转为求和,由于是单调函数,不会改变原结果,并且还很方面求最优,因此 log 类型的损失函数函数也非常常用

【机器学习】对数线性模型之Logistic回归、SoftMax回归和最大熵模型

风格不统一 提交于 2019-11-26 11:09:55
点击上方 蓝色字体 ,关注 AI小白入门 哟 跟着博主的脚步,每天进步一点点 本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率区间,使用对数损失构建目标函数。 首先以概率的方式解释了logistic回归为什么使用sigmoid函数和对数损失,然后将二分类扩展到多分类,导出sigmoid函数的高维形式softmax函数对应softmax回归,最后最大熵模型可以看作是softmax回归的离散型版本,logistic回归和softmax回归处理数值型分类问题,最大熵模型对应处理离散型分类问题。 作者 | 文杰 编辑 | yuquanle Logistic回归 A、 Logistic回归 分类问题可以看作是在回归函数上的一个分类。 一般情况下定义二值函数,然而二值函数构成的损失函数非凸,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分): 从函数图像我们能看出,该函数有很好的特性,适合二分类问题。 至于为何选择Sigmoid函数,后面可以从广义线性模型导出为什么是Sigmoid函数。 逻辑回归可以看作是在线性回归的基础上构建的分类模型,理解的角度有多种(最好的当然是概率解释和最小对数损失),而最直接的理解是考虑逻辑回归是将线性回归值离散化。 即一个二分类问题(二值函数)如下: