凸函数 | 易学教程

First Order Methods in Optimization Ch9. Mirror Descent

阅读更多关于 First Order Methods in Optimization Ch9. Mirror Descent

第九章: 镜像下降法文章目录第九章: 镜像下降法 1. 从投影次梯度法到镜像下降法 2. 收敛性分析 2.1 分析工具 2.2 固定迭代数目的步长选取准则 2.3 变步长准则 3. 求解组合模型的镜像下降法——镜像-C算法本章讨论镜像下降法 (mirror descent method, MDM)及其变体. 镜像下降实际上是 PSGM在非欧情形下的推广 . 因此本章的讨论不再限制在欧式空间中. 1. 从投影次梯度法到镜像下降法考虑优化问题 ( P ) min ⁡ { f ( x ) : x ∈ C } . (\mathrm{P})\quad\min\{f(\mathbf{x}):\mathbf{x}\in C\}. ( P ) min { f ( x ) : x ∈ C } . 我们对其做如下假设: 假设条件1 (i) f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f : E → ( − ∞ , ∞ ] 是正常闭凸函数; (ii) C ⊂ E C\subset\mathbb{E} C ⊂ E 是非空闭凸集; (iii) C ⊂ i n t ( d o m ( f ) ) C\subset\mathrm{int}(\mathrm{dom}(f)) C ⊂ i n t ( d o m ( f ) ) ; (iv) 问题

First Order Methods in Optimization Ch9. Mirror Descent

阅读更多关于 First Order Methods in Optimization Ch9. Mirror Descent

First Order Methods in Optimization Ch9. Mirror Descent

阅读更多关于 First Order Methods in Optimization Ch9. Mirror Descent

First Order Methods in Optimization Ch9. Mirror Descent

阅读更多关于 First Order Methods in Optimization Ch9. Mirror Descent

理解SVM（附代码）

阅读更多关于理解SVM（附代码）

参考内容： https://blog.csdn.net/weixin_39605679/article/details/81170300 SVM 支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的分类器，SVM还包含核技巧，这使它可以成为非线性的分类器。SVM的学习策略就是间隔最大化。算法原理 SVM 学习的基本思想就是求解能够正确划分训练数据集并且几何间隔距离最大的超平面。对于线性可分的数据，超平面（w*x+b=0）有无穷多个，但是几何间隔最大的超平面是唯一的几何间隔：对于给定的数据集和超平面，定义超平面关于样本点（Xi,Yi）的几何间隔为根据点到直线的距离扩展到超平面距离为：这个d 就是分类间隔。 ||W|| 表示w的二范数，即求所有元素的平方和，然后开方，比如对于二维平面：分类器的好坏评定依据就是分类间隔W=2d的大小，W越大，我们认为超平面分类效果越好，现在问题变成了最大化问题约束条件：至此我们已经获得了目标函数的数学形式，但是为了求解w的最大值，我们需要解决下面问题： 1：如何判断超平面将样本点正确分类。 2 ：我们知道了求距离d的最大值，首先需要找到支持向量上的点，如何从众多的点中选出支持向量上的点呢？上面需要面对的问题就是约束条件，也就是我们优化的变量d的取值范围受到了限制和约束条件。SVM算法通过一些巧妙的技巧

为什么说逻辑回归实质是最大似然估计，而线性回归实质是最小二乘法？

阅读更多关于为什么说逻辑回归实质是最大似然估计，而线性回归实质是最小二乘法？

根据已知特征值X和标签结果Y,我们利用线性回归模型（为了简化，作者以一元线性回归为例说明）可以得出 y i ^=wx i +b。损失函数：loss=Σ(y i -y i ^) 2 ，为了得到更加准确的拟合模型，我们的目标就转化为使损失函数loss最小，即： argmin loss=argmin Σ(y i -y i ^) 2 =argmin Σ(y i -wx i -b) 2 这里就是大家比较熟悉的最小二乘法(即最小化误差平方和)。因此线性回归其实质就是利用最小二乘法去计算各种参数(w,b)。但是对于逻辑回归，为什么不能用最小二乘法了呢？我们知道逻辑回归，同线性回归一样，可以计算预测值： y i ^=wx i +b 但是对于逻辑回归的标签结果是0或者1，如何使二者能够发生关联呢，有一种神奇的激活函数就是Sigmoid函数，可以将变量转化为0或者1， sigmoid函数表示： f(z)=1/(1+e -z )，因此，可以转化为 f(x)=1/(1+e -(wx+b) ) 。这时也许你想，同样loss=Σ(y i -f(x i )) 2 这样我们就可以像线性回归那样，利用最小二乘法去计算参数值了。可是好事多磨啊，要想得到一个最小二乘的最优解，这个函数最好是凸函数（为什么说最好是呢，其实不是凸函数，也能求得部分解，但不能保证是最优解，可能是一些鞍点）（什么是凸函数

机器学习（七）逻辑回归之代价函数

阅读更多关于机器学习（七）逻辑回归之代价函数

机器学习（七）逻辑回归之代价函数前言：由机器学习（六）我们得到了二分类问题的假设函数 hθ(x)，那么下一步我们需要确定代价函数 J(θ)，然后通过梯度下降法确定拟合参数θ。一、代价函数 1、假设函数： 2、对于线性回归的代价函数 3、但是因为 hθ(x)是S型的非线性函数，因此我们得到的J(θ)图形，可能是如下图所示的非凸函数 4、那么对于这样的代价函数J(θ)，我们就很难用梯度下降法得到全局收敛的最小值，我们需要代价函数是凸函数，类似下图所示，这样我们就一定可以通过梯度下降法得到代价函数的全局收敛的最小值。 5、为了解决上面提到的J(θ)是非凸函数的问题，我们寻找其它的数学等价代换，来使得逻辑回归的代价函数为凸函数，首先，对于代价函数做如下代换： 6、我们观察如下y = -ln(x)和y = -ln(1-x)两个函数的图像该图像最明显的特性是当x=1时，则y=0；当x=0时，则y趋向于无穷。该图像最明显的特性是当x=0时，则y=0；当x=1时，y趋向于无穷。 7、对于cost函数，自变量hθ(x (i) )∈(0,1)，因变量y (i) ∈ (0 | 1)，因此，假设令y=1，则cost(hθ(x (i) )，y (i) ) = -ln(hθ(x (i) )) 令y=0，则cost(hθ(x (i) )，y (i) ) = -ln(1-hθ(x (i) ))

海森矩阵和半正定矩阵

阅读更多关于海森矩阵和半正定矩阵

多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正定就相当于一元函数二阶导非负，半负定就相当于一元函数二阶导非正。如果这个类比成立的话，凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。至于为什么这个类是有道理的，你要这么看。对一元函数f(x)来说，就极值而言，一阶导为0是极值点的必要但不充分条件，一阶导为0切二阶导非负是极小值的充要条件。为什么呢，因为有泰勒展开。如果一阶导为0，二阶导非负，dx不论是多少，f(x)一定不比f(x0)小。你把多元函数也个泰勒展开，主要区别在于： 1) 二阶导变成了Hessian。 2) 以前只要考虑x怎么变，现在还要考虑y怎么变，x和y怎么一起变，头疼了很多。以二元为例，从一元的情况类比过来，如果一阶导为0，是不是极小值完全取决于不同的dx, dy下，能不能做到最后一项一直非负。只有对于任意 , 一直非负的情况，我们才能说这是极小值。如果一直非正，这就是极大值。如果它一会正一会负，就是鞍点。然后“对于任意 , 一直非负”这是啥？半正定的定义嘛！它就是这么引出来的，也是我们为什么需要半正定这个概念的原因我们首先假设函数在定义域上连续函数在定义域上二阶可导现在要证明的是： definition 1st-order condition 1st-order

CF566C Logistical Questions

阅读更多关于 CF566C Logistical Questions

分析首先，设 \(d(i,j)\) 表示当前定义下 i，j 的距离，然后可以发现，当 j 固定，i 在一条路径上移动时， \(d\) 是下凸函数，就是说只会有一个最优解。。然后考虑 \(f(i)\) ，表示以 i 为重心时的答案。有： \(f(i)=\sum_{j\neq i}f(i,j)\) 。然后由于下凸函数相加后也为下凸函数，所以 \(f(i)\) 也为下凸函数。所以全树只有一个最优位置（不一定为节点），且从此扩散出去的点的答案会变大。于是考虑链的情况，二分就完事了。然后放到树上，就可以点分治，每次在根的相邻节点中选出会使答案变小的方向，继续点分。然后显然我们不能每次都暴力计算 \(f\) ，我们可以利用导数来快速计算。注意 codeforces 好像不可以用 long double。。然后最大值要算好设。。。 code: #include<bits/stdc++.h> using namespace std; const int N=2e5+7; template <class I> inline void read(I &x){ int f=1; char c; for(c=getchar();c<'0'||c>'9';c=getchar()) if(c=='-') f=-1; for(x=0;c>='0'&&c<='9';x=(x<<3)+(x<<1

机器学习系列(22)_SVM碎碎念part5：凸函数与优化

阅读更多关于机器学习系列(22)_SVM碎碎念part5：凸函数与优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接： https://blog.csdn.net/yaoqiang2011/article/details/79080100 原文地址： SVM - Understanding the math - convex-functions/ by Brandon Amos 感谢参与翻译同学：@程亚雄 && @张蒙 && @jozee 时间：2018年1月。出处： http://blog.csdn.net/han_xiaoyang/article/details/70214565 声明：版权所有，转载请联系寒小阳 (hanxiaoyang.ml@gmail.com)并注明出 1.引言这是SVM数学基础系列教程第5部分。现在我们来学习凸函数相关的知识。如果你没有读过之前的文章，建议从《第一部分》开始学习。 1.1 如何找到全局最小值有一种简单的方法可以找到全局最小值：找到所有的局部极小值最小的局部极小值就是全局最小值还有另一种方法就是研究需要极小化的目标函数。如果这个函数是凸函数，那么就可以确保该函数的局部极小值即是全局最小值定理：凸函数的局部极小值就是全局最小值 ( Proof page 9 ) 2.凸函数 2.1 什么是凸函数

订阅凸函数