梯度下降

logistic regression 最基础的分类算法

只愿长相守 提交于 2021-02-19 20:54:55
介绍 logistic regression是一种最基本的分类算法。它的模型为 ,其中 。 其代价函数 。 对于二分类问题,y的取值为0和1,这里,我们设定 为y=1概率。当其大于等于0.5时,我们预测结果为1,当其小于0.5时,我们预测结果为0。 使用梯度下降算法 迭代公式: 其中 。推导过程见下图。 矢量化表达: 。 来源: oschina 链接: https://my.oschina.net/u/4279696/blog/3979639

Caffe的solver参数介绍

…衆ロ難τιáo~ 提交于 2021-02-16 18:50:45
版权声明:转载请注明出处,谢谢! https://blog.csdn.net/Quincuntial/article/details/59109447 1. Parameters solver.prototxt 文件是用来告诉caffe如何训练网络的。 solver.prototxt 的各个参数的解释如下: base_lr 这个参数是用来表示网络的初始学习率的。这个值是一个浮点型实数。 lr_policy 这个参数是用来表示学习率随着时间是如何变化的。值是字符串,需要加 "" 。学习率变化的可选参数有: “step”——需要设置 stepsize 。根据 gamma 参数和 stepsize 参数来降低学习率, base_lr * gamma ^ (floor(iter / stepsize)) 。 iter 是当前迭代次数。学习率每迭代 stepsize 次变化一次。 “multistep”——与 step 类似,需要设置 stepvalue ,学习率根据 stepvalue 进行变化。 “fixed”——学习率 base_lr 保持不变。 “inv”——学习率变化公式为 base_lr * (1 + gamma * iter) ^ (- power) “exp”——学习率变化公式为 base_lr * gamma ^ iter} “poly”——学习率以多项式形式衰减

批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

谁都会走 提交于 2021-02-16 11:20:56
  梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式: 批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent) 。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来,我们将对这三种不同的梯度下降法进行理解。   为了便于理解,这里我们将使用只含有 一个特征 的线性回归来展开。此时线性回归的 假设函数 为: $$ h_{\theta} (x^{(i)})=\theta_1 x^{(i)}+\theta_0 $$   其中 $ i=1,2,...,m $ 表示样本数。   对应的**目标函数(代价函数)**即为: $$ J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2 $$   下图为 $ J(\theta_0,\theta_1) $ 与参数 $ \theta_0,\theta_1 $ 的关系的图: <div align="center"> ![](https://images2018.cnblogs.com/blog/1238724/201808/1238724

随机梯度下降优化算法-----批量梯度下降,随机梯度下降,小批量梯度下降

余生颓废 提交于 2021-02-15 03:55:34
  梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点(收敛),更新步长为η。有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。 批量梯度下降(Batch gradient descent) 每次使用全量的训练集样本来更新模型参数,即: θ=θ−η⋅∇θJ(θ) 其代码如下: epochs 是用户输入的最大迭代次数。通过上诉代码可以看出,每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad,然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params。一般各现有的一些机器学习库都提供了梯度计算api。如果想自己亲手写代码计算,那么需要在程序调试过程中验证梯度计算是否正确。 批量梯度下降每次学习都使用整个训练集,因此其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新。 随机梯度下降(Stochastic gradient descent)

机器学习常见算法

强颜欢笑 提交于 2021-02-14 12:56:11
一 线性回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10690191.html 二 逻辑回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10697596.html 三 k-近邻算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10698121.html 四 决策树 链接:https://www.cnblogs.com/LUOyaXIONG/p/10705304.html 五 随机森林 链接:https://www.cnblogs.com/LUOyaXIONG/p/11528575.html 六 支持向量机 链接:https://www.cnblogs.com/LUOyaXIONG/p/10686824.html 七 朴素贝叶斯 链接:https://www.cnblogs.com/LUOyaXIONG/p/10702288.html 八 EM算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10703120.html 九 Adaboost 链接:https://www.cnblogs.com/LUOyaXIONG/p/10951438.html 十 GBDT 链接:https://www.cnblogs.com/LUOyaXIONG

风格迁移算法

非 Y 不嫁゛ 提交于 2021-02-14 10:04:09
最近推导了一些机器学习入门的算法,老是搞那些数学知识,搞的自己都没信心和新区了。今天学着玩点有趣好玩的。 图像的艺术风格迁移算法,算是一个简单有趣,而且一般人都能看得到效果的算法。图像艺术风格迁移,简单的理解,就是找一个照片作为内容,然后把这个照片换成梵高或者毕加索等制定的风格。关于 图像艺术风格迁移 的一些历史和知识,大家可以看看这篇文章: 图像风格迁移(Neural Style)简史 。 思路 风格迁移的大概思路是:我们需要准备两张图片。一张是我们将要输出的内容图片,另外一张是我们需要模仿的风格图片。我们需要输出一张图片,让输出的这张图片的内容和内容图片相近,让输出图片的风格和风格图片的风格相近。 <br /> 内容最接近的算法 内容最接近,相对来说比较简单。简单的理解可以对比每个图片的像素,然后计算他们的差距。也可以是计算CNN中间某个卷积层得到的特征值之间的距离。 <br /> 我经过调试发现,如果内容图层取得太靠前,效果不太好。因为内容特征越靠前,相当于对比的越细腻,而风格迁移要得到的效果是宏观上更像内容图片,细节上用风格表现,这样效果最好。 风格最接近的算法 风格的比较是最难理解的。要理解风格比较的算法,需要了解一个名词叫做格拉姆矩阵。听常博士说这个知识属于矩阵分析里面的内容。我对这方面没系统学习过,不太懂。但是我能理解到的层次是:你给定N个卷积核,然后可以得到N个矩阵

积神经网络(CNN)的参数优化方法

不问归期 提交于 2021-02-12 22:44:46
http://www.cnblogs.com/bonelee/p/8528863.html 积神经网络的参数优化方法——调整网络结构是关键!!!你只需不停增加层,直到测试误差不再减少. 积神经网络(CNN)的参数优化方法 from:http://blog.csdn.net/u010900574/article/details/51992156 著名: 本文是从 Michael Nielsen的电子书 Neural Network and Deep Learning 的 深度学习 那一章的卷积神经网络的参数优化方法的一些总结和摘录,并不是我自己的结论和做实验所得到的结果。我想Michael的实验结果更有说服力一些。本书在github上有 中文翻译 的版本, 前言 最近卷积神经网络(CNN)很火热,它在图像分类领域的卓越表现引起了大家的广泛关注。本文总结和摘录了Michael Nielsen的那本Neural Network and Deep Learning一书中关于深度学习一章中关于提高泛化能力的一些概述和实验结果。力争用数据给大家一个关于 正则化 , 增加卷积层/全连接数 , 弃权技术 , 拓展训练集 等参数优化方法的效果。 本文并不会介绍 正则化 , 弃权(Dropout) , 池化 等方法的原理,只会介绍它们在实验中的应用或者起到的效果,更多的关于这些方法的解释请自行查询。

清华大学王奕森:Adversarial Machine Learning: Attack and D

倖福魔咒の 提交于 2021-02-12 21:28:29
本文作者:HelloDeveloper 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第六期“机器学习”专场已于2019年6月23日下午在中科院举行。清华大学王奕森为大家带来报告《Adversarial MachineLearning: Attack and Defence》。 Yisen Wang obtained his Ph.D. degree from the Department of Computer Science and Technology at Tsinghua University. He is also a visiting scholar at Georgia Tech

神经网络DNN —— 优化算法

空扰寡人 提交于 2021-02-12 18:19:10
   建议:可以查看吴恩达的深度学习视频,里面对这几个算法有详细的讲解。 一、指数加权平均   说明:在了解新的算法之前需要先了解指数加权平均,这个是Momentum、RMSprop、Adam三个优化算法的基础。 1、指数加权平均介绍:   这里有一个每日温度图(华氏摄氏度℉),右边是每日温度,$\theta _{i}$表示第i天的温度:   这个时候我们要用一个曲线来拟合这个散点图,则曲线某一天的$y$值可以用某一天的温度的局部平均值来替代,假设我们有前i-1天的温度,这时候要来估计第$i$天的温度$\theta _{i}$,我们可以用第$i$天的前$k$天的平均温度替代,如:$\theta _{i}^{'}=\frac{\theta _{i}+...+\theta _{i-k}}{k}$。   但是这样的数据容易出现一个问题,当前5天的数值为10、11、12、13、14、30,可以看到第五天的数据异常偏大,如果用一般均值计算的话会导致波动特别大,拟合值容易出错。   解决方法是我们计算均值的时候,考虑前面k天的影响,对前面的k天加上权值,就能够抵消由于异常值导致数据的过分误差,这就有了指数加权平均,公式如下: $$V_{i}=\beta V_{i-1}+(1-\beta )\theta _{i}$$   $V_{i}$为第$i$天的温度的拟合值,规定$V_{0}=0$,$

Logistics Regression 逻辑回归及Python代码

徘徊边缘 提交于 2021-02-12 11:05:02
  逻辑回归(Logistics Regression)是广义线性模型中的一种,其取值为0或1,服从伯努利分布。而伯 努利家族的正则响应函数就是sigmoid函数 ,因此逻辑回归为什么选用sigmoid函数的理论原因。同时,sigmoid函数好处有:   1. 将现行分类器的响应值 <w , x> (内积) 映射到一个概率上;   2. 将实域上的数映射到P(y=1|w,x)上,满足逻辑回归的要求。   逻辑回归可以用于二分类问题,只能解决线性可分的情况,不能用于线性不可分。   对于输入向量X,其属于y=1的概率为:   $P(y=1|X,W)=h(X)=\frac{1}{1+{{e}^{-WX}}}$ 其属于y=0的概率为:   $P(y=0|X,W)=1-P(y=0|X,W)=1-h(X)=\frac{{{e}^{-WX}}}{1+{{e}^{-WX}}}$ 对于逻辑回归函数,其属于y的概率为:   $P(y|X,W)=h{{(X)}^{y}}\cdot {{(1-h(X))}^{1-y}}.$   逻辑回归模型需要求得参数向量W,可以使用极大似然估计求解。假设有 m 个样本,则似然函数为:   \[{{\text{L}}_{\text{W}}}=\prod\limits_{i=1}^{m}{\left[ h{{({{X}_{i}})}^{{{y}_{i}}}}\cdot {