导数 | 易学教程

逻辑回归的前因后果

阅读更多关于逻辑回归的前因后果

逻辑回归的前因后果 LR的泛化形式 – 广义线性模型最简单的线性回归模型，函数对于 x 和 w 都是线性的： y ( x ) = w T x + w 0 //--> 它是二维坐标系中的一条直线，或者三维空间中的一个平面，在高维空间则是超平面。为了把它用于分类，可以给它加一个激活函数，把值域压缩到小区间，比如(0, 1)之间，这就是广义线性模型： y ( x ) = f ( w T x + w 0 ) //--> 当激活函数是logistic-sigmoid函数时，这个分类方法就是LR： p ( C 1 | ϕ ) = σ ( w T ϕ ) //--> 从回归方法演化而来，LR虽用于分类，它的输出却不是{0，1}两类，而是一个连续的函数，所以名字还叫“回归”而不是“分类”。为什么用logistic-sigmoid函数首先，LR是判别模型，即它直接求后验概率，那么想象一下，一个只有两类的后验概率应该是什么形状？用例子说明，假设男女比例相等，男女两类的先验概率：p(男人)=1/2，p(女人)=1/2 现在给先验概率加一个条件：身高，即知道一个人的身高，猜它是男的概率，是女的概率。高个子通常是男的，但也可能是女的。在各种不同身高条件下，有了一系列后验概率： p (男| 150 ) =1/8 | p (男| 160 ) =1/5 | p (男| 170 ) =1/2 | p

搞深度学习需掌握的基础数学知识

阅读更多关于搞深度学习需掌握的基础数学知识

转载请注明出处：乐投网-搞深度学习需掌握的基础数学知识 IT 互联网行业有个有趣现象，玩资本的人、玩产品的人、玩技术的人都能很好的在这个行业找到自己的位置并取得成功，而且可以只懂其中一样，不需要懂其余两样。玩技术的人是里面最难做的，也是三者收益最低的，永远都要不停学习，不停把画饼变成煎饼。在今年 5 月底，AlphaGo 又战胜了围棋世界冠军柯洁，AI 再次呈现燎原之势席卷科技行业，吸引了众多架构师对这个领域技术发展的持续关注和学习，思考 AI 如何做工程化，如何把我们系统的应用架构、中间件分布式架构、大数据架构跟 AI 相结合，面向什么样的应用场景落地，对未来做好技术上的规划和布局。为了彻底理解深度学习，我们到底需要掌握哪些数学知识呢？经常看到会列出一系列数学科目：微积分、线性代数、概率论、复变函数、数值计算等等。这些数学知识有相关性，但实际上这是一个最大化的知识范围，学习成本会非常久，本文尝试归纳理解深度学习所需要的最小化数学知识和推导过程。（以下根据作者的学习理解整理，有误之处，欢迎专家学者提出指导批评）。多层神经网络的函数构成关系多层神经网络从输入层，跨多个隐含层，到最后输出层计算误差，从数学上可以看做一系列函数的嵌套组合而成，上一层函数输出做为下一层函数输入，如下图 1 所示。图 1 先从误差函数说起，深度学习的误差函数有典型的差平方函数

深度学习涉及的数学知识

阅读更多关于深度学习涉及的数学知识

向量在线性代数中，标量（Scalar）是一个实数，而向量（Vector）是指n 个实数组成的有序数组，称为n 维向量。如果没有特别说明，一个n 维向量一般表示列向量，即大小为n *1 的矩阵。向量符号一般用黑体小写字母a,b,c或小写希腊字母等来表示。常用的向量矩阵运算常见的矩阵导数向量的导数导数法则加减法则乘法法则链式法则常见的向量和矩阵的导数来源： CSDN 作者： perfectzq 链接： https://blog.csdn.net/perfectzq/article/details/71373304

激活函数

阅读更多关于激活函数

常用激活函数及其导数 Sigmoid函数形式 \[f(z)=\frac{1}{1+\exp(-z)}\] 导数 \[f^{'}(z)=f(z)(1-f(z))\] Tanh激活函数形式 \[f(z)=tanh(z)=\frac{e^z - e^{-z}}{e^z + e^{-z}}\] 导数 \[f^{'}(z)=1-(f(z))^2\] ReLU激活函数形式 \[f(z) = \max(0, z)\] 导数：略 GTU激活函数形式 \[f(X) = tanh(X \cdot W+b)\cdot \sigma(X \cdot V+c)\] 结构：tanh激活单元+sigmoid激活单元存在梯度消失问题 GLU激活函数形式 \[f(X) = (X\cdot W+b) \cdot \sigma(X \cdot V+c)\] 结构：ReLU激活单元+sigmoid激活单元不会存在梯度消失问题 SELU (scaled exponential linear units)激活函数形式 \[\begin{aligned} \text{selu}(z) = \lambda \begin{cases} z \quad &\text{if} \ z > 0 \\ \alpha e^z - \alpha \quad &\text{if} \ z \le 0 \end{cases}

「数学」导数微积分初步

阅读更多关于「数学」导数微积分初步

这几天比较系统的学了一下微积分和导数（其实是高考课课余没事干和不想在机房颓废。。一、导数其实就是个变化率的问题。我们设一个函数$f(x)$的导数为$D[f(x)]$ 那么： $$D[f(x)]=\lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}$$ 导数是这样用的。 $$f(x+\Delta x)=f(x)+D[f(x)]\Delta x$$ 然后写一些常用的求导公式。 1.$$f(x)=ax+b$$ $$\begin{array}{rcl}D[f(x)]&=&\lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\&=&\lim_{\Delta x\rightarrow 0}\frac{ax+b+a\Delta x - (ax+b)}{\Delta x}\\&=&\lim_{\Delta x\rightarrow 0}\frac{a\Delta x}{\Delta x}=a\end{array}$$ 2.$$f(x)=x^n$$ $$\begin{array}{rcl}D[f(x)]&=&\lim_{\Delta x\rightarrow 0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\\&=&

理解最小二乘法

阅读更多关于理解最小二乘法

想要理解好最小二乘法，首先得理解一些数学概念。然后再去理解最小二乘法什么是导数？导数在几何里面理解就是函数的切线，函数的增长速度。参考：导数第一节导数概念什么是偏导数？当一元函数是平面的时候（定义域x，值域y，组成一个平面），二元函数就是三维空间了（定义域x，定义域y，值域z组成一个三维空间xyz），一元函数的导数很好理解，那二元函数是一个立体空间，得到的导数也是一个二元函数，就不那么好理解了，所以需要我们控制一面，就相当于减少一个元，变成一元函数的导数，比如说先去掉y这个平面，先求平行于xoz平面的的函数的导数，其实就相当于求一个一元函数的导数。参考：偏导数偏导数及其几何意义最小二乘法怎么理解？对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。最小二乘法的原则是以“残差平方和最小”确定直线位置

导数与积分相关总结

阅读更多关于导数与积分相关总结

一、导数基本初等函数的导数公式导数的运算法则复合函数的导数二、积分积分符号的含义定积分的性质牛顿——莱布尼茨公式这个公式实际上表达了积分的逆运算是导数。来源： https://www.cnblogs.com/little-aztl/p/11829028.html

泰勒展开式

阅读更多关于泰勒展开式

一阶泰勒公式是什么意思这里的不是都展到了二阶吗？为什么说是一阶?几阶是怎么看的？回答： f'(xo)是准确值，f''(ξ)那一项是一阶泰勒的余项。所以说，还是展开到了一阶。泰勒公式是将一个在x=x0处具有n阶导数的函数f（x）利用关于（x-x0）的n次多项式来逼近函数的方法。若函数f（x）在包含x0的某个闭区间[a,b]上具有n阶导数，且在开区间（a,b）上具有（n+1）阶导数，则对闭区间[a,b]上任意一点x，成立下式：其中，表示f（x）的n阶导数，等号后的多项式称为函数f（x）在x0处的泰勒展开式，剩余的Rn（x）是泰勒公式的余项，是（x-x0）n的高阶无穷小。扩展资料：实际应用中，泰勒公式需要截断，只取有限项，一个函数的有限项的泰勒级数叫做泰勒展开式。泰勒公式的余项可以用于估算这种近似的误差。泰勒展开式的重要性体现在以下五个方面： 1、幂级数的求导和积分可以逐项进行，因此求和函数相对比较容易。 2、一个解析函数可被延伸为一个定义在复平面上的一个开片上的解析函数，并使得复分析这种手法可行。 3、泰勒级数可以用来近似计算函数的值，并估计误差。 4、证明不等式。 5、求待定式的极限。来源： https://www.cnblogs.com/wisir/p/11810353.html

网络权重初始化方法总结（上）：梯度消失、梯度爆炸与不良的初始化

阅读更多关于网络权重初始化方法总结（上）：梯度消失、梯度爆炸与不良的初始化

目录前向传播与反向传播回顾梯度消失与梯度爆炸激活函数的影响权重矩阵的影响不良初始化参考博客： blog.shinelee.me | 博客园 | CSDN 前向传播与反向传播回顾神经网络的训练过程可以简化成以下步骤，输入预处理（feature scaling等）初始化网络weight和bias 前向传播，得到网络输出计算损失函数，得到当前损失反向传播，根据链式法则，逐层回传得到损失函数对当前参数的偏导，根据梯度下降算法对当前参数进行更新重复步骤3 4 5，直到损失不再减小，即收敛一个简单的前向传播和反向传播的示意图如下，线性组合和非线性激活交替进行，线性组合层可以为全连接层或卷积层等，图片来自链接，梯度下降算法的参数更新公式为， \[ W(t+1)=W(t)-\eta \frac{d C}{d W} \] 其中 $C=J(W)$ 为损失函数，即通过参数的偏导对参数进行更新。反向传播时，由链式法则，偏导反向回传，逐层计算损失函数对当前参数的偏导。对某个参数的偏导为一串因子的乘积，因子依次为损失函数对网络输出的偏导、激活函数的偏导、线性组合的偏导、激活函数的偏导、线性组合的偏导……如下面所示（来自链接），这里，损失为二分之LMS，用 $C$ 表示， $z$ 为线性组合的输出（激活层的输入）， $a$ 为激活层的输出（线性组合的输入），

牛顿法优缺点

阅读更多关于牛顿法优缺点

⽜顿法是梯度下降法的进一步发展，梯度下降法利利用目标函数的一阶偏导数信息、以负梯度方向作为搜索方向，只考虑目标函数在迭代点的局部性质；而牛顿法不仅使用目标函数的一阶偏导数，还进一步利⽤了目标函数的二阶偏导数，这样就考虑了梯度变化的趋势，因⽽而能更全面地确定合适的搜索⽅方向加快收敛，它具二阶收敛速度。但牛顿法主要存在以下两个缺点： 1. 对目标函数有较严格的要求。函数必须具有连续的一、二阶偏导数，海海森矩阵必须正定。 2. 计算相当复杂，除需要计算梯度以外，还需要计算二阶偏导数矩阵和它的逆矩阵。计算量、存储量均很⼤，且均以维数N的平⽅增加，当N很⼤时这个问题更加突出。⽜顿法虽然收敛速度快，但是计算过程中需要计算目标函数的二阶偏导数，计算复杂度较⼤。而且有时目标函数的海森矩阵无法保持正定，从而使⽜顿法失效。为了克服这两个问题，⼈们提出了拟⽜牛顿法。这个方法的基本思想是：不⽤⼆阶偏导数而构造出可以近似海森矩阵或者海森矩阵的逆的正定对称阵，在拟⽜顿的条件下优化⽬目标函数。不同的构造⽅法就产生了不同的拟牛顿法。也有人把“拟牛顿法”翻译成“准牛顿法”，其实都是表示“类似于牛顿法”的意思，因此只是对算法中用来计算搜索方向的海森矩阵（或海森矩阵的逆）作了近似计算罢了。来源： https://www.cnblogs.com/zjuhaohaoxuexi/p/11808215

订阅导数