激活函数

pytorc人工神经网络Logistic regression与全连接层

ⅰ亾dé卋堺 提交于 2021-02-19 12:09:18
//2019.10.08 神经网络与全连接层 1、logistics regression 逻辑回归的思想是将数据利用 激活函数sigmoid函数转换为0-1的概率 ,然后定义一定的阈值0.5,大于阈值则为一类,小于阈值则为另一类。它主要用来解决的是二分类问题,也可以通过一定的变形解决多分类的问题。 2、对于逻辑回归其实质是分类算法,为什称之为回归, 主要是因为其优化的函数类似于回归问题的loss函数,而将其称之为逻辑主要是因为利用了sigmoid函数。 图 3、回归问题和分类问题的loss函数是不一样: (1)回归问题:MSE (2)分类问题: 1)MSE(P) 2)cross entropy loss 3)Hinge Loss 图 4、 cross entropy loss交叉熵 :主要是指整体预测的不确定性,即熵的概念,熵的值越大,说明其确定性越低,概率分布越接近;熵的值越小,说明确定性越高,概率预测分布相差越大,越逼近极端的0或者1。 图123 5、 交叉熵函数cross_entropy=softmax+log+null_loss函数 图 6、激活函数主要有以下几种: sigmoid函数、tanh函数、Relu函数,改进版Relu函数,selu函数,softplus函数 7、一个神经网络层结构的搭建组成具体如下所示: 来源: oschina 链接: https://my

[硬核科普]神经网络:从神经元到深度学习

僤鯓⒐⒋嵵緔 提交于 2021-02-16 10:01:57
“ 原作者 :计算机的潜意识 重新排版 :「曲水流觞TechRill 」 , 转载请同时注明两个出处。 全文 :18K字,阅读需1小时 原文 : https://www.cnblogs.com/subconscious/p/5058741.html ” 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。 本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求,但是懂一些 ‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍ 机器学习 参见本公众号另一篇: [硬核科普]从机器学习谈起 基础会更好地帮助理解本文。 神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。人脑中的神经网络是一个非常复杂的组织。成人的大脑中估计有1000亿个神经元之多。 图1 人脑神经网络 那么机器学习中的神经网络是如何实现这种模拟的,并且达到一个惊人的良好效果的?通过本文,你可以了解到这些问题的答案,同时还能知道神经网络的历史,以及如何较好地学习它。 由于本文较长,为方便读者,以下是本文的目录: 一.[前言] 二.[神经元] 三.[单层神经网络(感知器)] 四.[两层神经网络(多层感知器)] 五.[多层神经网络

积神经网络(CNN)的参数优化方法

不问归期 提交于 2021-02-12 22:44:46
http://www.cnblogs.com/bonelee/p/8528863.html 积神经网络的参数优化方法——调整网络结构是关键!!!你只需不停增加层,直到测试误差不再减少. 积神经网络(CNN)的参数优化方法 from:http://blog.csdn.net/u010900574/article/details/51992156 著名: 本文是从 Michael Nielsen的电子书 Neural Network and Deep Learning 的 深度学习 那一章的卷积神经网络的参数优化方法的一些总结和摘录,并不是我自己的结论和做实验所得到的结果。我想Michael的实验结果更有说服力一些。本书在github上有 中文翻译 的版本, 前言 最近卷积神经网络(CNN)很火热,它在图像分类领域的卓越表现引起了大家的广泛关注。本文总结和摘录了Michael Nielsen的那本Neural Network and Deep Learning一书中关于深度学习一章中关于提高泛化能力的一些概述和实验结果。力争用数据给大家一个关于 正则化 , 增加卷积层/全连接数 , 弃权技术 , 拓展训练集 等参数优化方法的效果。 本文并不会介绍 正则化 , 弃权(Dropout) , 池化 等方法的原理,只会介绍它们在实验中的应用或者起到的效果,更多的关于这些方法的解释请自行查询。

《Machine Learning

拈花ヽ惹草 提交于 2021-02-12 04:21:48
https://www.youtube.com/watch?v=CXgbekl66jc&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49 https://www.bilibili.com/video/av65521101 因为之前有些基础,对于本视频课程的学习仅仅记录一些要点.目前只学习涉及深度学习和对抗攻击的部分. 1 Regression 通过Gradient Descent找到Loss Function的局部最优点.Gradient就是Loss Function对每个参数的偏导数排成的向量. 如果Loss Function是Convex的,即凸函数,那么Gradient Descent一定可以找到全局最优点. 过于复杂的model就会Overfitting. 类别型特征可以通过δ函数变成Linear Model. 对于特征的处理,可以通过Domain Knowledge或者Regularization. Regularization的一种简单方式是在Loss Function中加入λΣ(w i ) 2 ,因为越小的w越平滑,即对变化越不敏感. Regularization一般不考虑bias,因为它只影响Loss Function的上下移动,而与是否平滑无关. 可以给w和b设定不同的Learning Rate来加强拟合效果. 2 Where

tensorflow2.0第2章 Tensorflow keras实战

倖福魔咒の 提交于 2021-02-09 02:05:33
本门课程的基础章节,详细介绍了如何使用tf.keras进行模型的搭建以及大量的深度学习的理论知识。理论知识包括分类问题、回归问题、损失函数、神经网络、激活函数、dropout、批归一化、深度神经网络、Wide&Deep模型、密集特征、稀疏特征、超参数搜索等及其在图像分类、房价预测上的实现。 课程代码的tensorflow版本: 大部分代码是tensorflow2.0的; 课程以tf.keras API为主,因为keras在1.3以后的版本就引入进来了,因而部分代码可以在tf1.3+运行; 另外有少量tensorflow1.*版本代码,这些版本的代码并不能在2.0上运行,因为很多API都已经过时了。 理论部分: tensorflow-keras简介; 分类问题、回归问题、损失函数; 神经网络、激活函数、批归一化、Dropout; wide&deep模型; 超参数搜索。 实战部分: keras搭建分类模型; keras回调函数; keras搭建回归模型; keras搭建深度神经网络; keras实现wide&deep模型; keras与scikit-learn实现超参数搜索。 tensorflow-keras简介 keras是什么: 基于python的高级神经网络API,它是一套API,而不是一个完整的库; Francois Chollet(现在在Google,tf

Generative Adversarial Nets[LSGAN]

血红的双手。 提交于 2021-02-06 21:35:19
0 背景 在这之前大家在训练GAN的时候,使用的loss函数都是sigmoid_cross_entropy_loss函数,然而xudon mao等人发现当使用伪造样本去更新生成器(且此时伪造样本也被判别器判为对的时候)会导致梯度消失的问题。虽然此时伪造样本仍然离真实样本分布距离还挺远。也就是之前的损失函数虽然可以判别是真假,可是对于人肉眼来说,还是违和感太强了,也就是生成的图像质量骗得过机器,却骗不过人。 <center/>![](https://images2018.cnblogs.com/blog/441382/201802/441382-20180224221241753-1230546101.png)</center> <center/>**图0.1 两种损失函数的不同行为**</center> 上图中加号表示假样本,圈表示真样本,五角星表示用于更新生成器的伪造样本,红线表示LSGAN的决策面,蓝线表示sigmoid交叉熵的决策面。可以从图0.1.1中看出,sigmoid函数能分真假,可是对距离却并不敏感。 所以,由此,他们 提出了更好的损失函数用于将伪造样本的分布推向于决策面(虽然无法直接推向真实样本的分布) 。并且从中还发现,用此损失函数,可以增加训练GAN的稳定性。并且之前也有一些论文论述到GAN的不稳定训练一部分归咎于目标函数

吴恩达深度学习学习笔记——C3W1——机器学习策略1-1

非 Y 不嫁゛ 提交于 2021-02-05 14:38:08
1.1 为什么需要ML策略? 问题引入:如何提高机器学习的水平?可能有很多种想法(如,收集更多数据、收集更丰富多样的训练数据、增加梯度下降法迭代次数、增加网络规模、减小网络规模、使用随机失活(dropout)、添加L2正则化项、改变网络架构(激活函数、隐层单元数等)),应该选择哪些,舍弃哪些? 1.2 正交化 正交化的一个实例:老式电视机的调节按钮(上下、左右、形变等),每个按钮的功能明确而相对对立,即所谓“正交”(orthogonal) 机器学习中的假设链: 成本函数调优顺序:训练集 -> 开发集(验证集)-> 测试集 -> 真实世界 Orthogonalization(正交化) Orthogonalization or orthogonality is a system design property that assures that modifying an instruction or a component of an algorithm will not create or propagate side effects to other components of the system. It becomes easier to verify the algorithms independently from one another, it reduces

用神经网络给照片补光,谷歌这项研究却实现了「鬼片」效果!(胆小勿入)

旧时模样 提交于 2021-02-05 06:05:44
打光是图像处理过程中的重要步骤,打光的好坏可能会影响整体效果的展示。打光方法也各有不同,MIT、谷歌等的一项新研究另辟蹊径,通过神经光传输方法进行图像的二次打光和视图合成,实现了相当不错的效果。 机器之心报道,编辑:魔王、杜伟、小舟。 图像合成早已不是新鲜话题,但是「打光」可是所有照片的难题。对于人类摄影师而言,打光就是件挺复杂的事,那么合成图像中的光线问题又该如何解决呢? 最近,来自 MIT、谷歌和加州大学圣地亚哥分校的研究人员进行了一项研究,试图 通过神经光传输(Neural Light Transport,NLT)对图像进行二次打光(relighting)和视图合成(view synthesis) 。 那么,这项研究提出的 NLT 方法效果如何呢?研究者在多个场景下进行了测试,包括 Directional Relighting、基于不同图像背景的打光、根据摄像头路径不同进行视图合成后的打光效果等等。 效果看起来不错,就是有点像鬼片……(瑟瑟发抖 具体而言,在 Directional Relighting 场景下,NLT 实现了如下效果: 在基于图像的 Relighting 场景下,人物的打光效果随着背景图像的变换而不断调整: 那么在涉及视图合成时,效果如何呢? 同时进行二次打光和视图合成呢? 想查看更多效果?请戳以下视频: https://v.qq.com/x/page

目标检测算法之YOLOv1与v2

有些话、适合烂在心里 提交于 2021-01-30 14:05:13
YOLO:You Only Look Once(只需看一眼) 基于深度学习方法的一个特点就是实现端到端的检测,相对于其他目标检测与识别方法(如Fast R-CNN)将目标识别任务分成目标区域预测和类别预测等多个流程,YOLO将目标区域预测和类别预测整合到单个神经网络中,将目标检测任务看作目标区域预测和类别预测的回归问题。速度非常快,达到每秒45帧,而在快速YOLO(Fast YOLO,卷积层更少),可以达到每秒155帧。 与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性(真实结果为假,算法预测为真)优于当前最好的方法。 一、YOLO的核心思想 1. YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框)的位置及其所属类别 2. Faster R-CNN中也直接用整张图作为输入,但是Faster R-CNN整体还是采用了RCNN那种proposal + classifier的思想,只不过将提取proposal的步骤放在CNN中实现,而YOLO则采用直接回归的思路。 二、YOLO的实现方法 1. YOLO首先将图像分为SxS个网格(grid cell)。如果一个目标的中心落入格子,该格子就负责检测其目标。每一个网格中预测B个Bounding box和置信值(confidence score)

使用多尺度空间注意力的语义分割方法

大憨熊 提交于 2021-01-30 09:37:33
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Abhinav Sagar 编译:ronghuaiyang 导读 用于自动驾驶的新的state of the art的网络。 本文提出了一种新的神经网络,利用不同尺度的多尺度特征融合来实现精确高效的语义分割。 重点 我们在下采样部分使用了膨胀卷积层,在上采样部分使用了转置卷积层,并在concat层中对它们进行拼接。 alternate blocks之间有跳跃连接,这有助于减少过拟合。 我们对我们的网络训练和优化细节进行了深入的理论分析。 我们在Camvid数据集上使用每个类的平均精度和IOU作为评价指标来评估我们的网络。 我们的模型在语义分割上优于之前的state of the art网络,在超过100帧每秒的速度下,平均IOU值为74.12。 语义分割 语义分割需要对输入图像的每个像素预测一个类,而不是对整个输入图像进行分类。为了预测图像中每个像素的内容,分割不仅需要找到输入图像中的内容,还需要找到它的位置。语义分割在自动驾驶、视频监控、医学影像等方面都有应用。这是一个具有挑战性的问题,因为要在准确性和速度之间进行权衡。由于模型最终需要在现实环境中部署,因此精度和速度都应该很高。 数据集 在训练和评估中使用了CamVid数据集。数据集提供了ground truth标签,将每个像素与32个类中的一个相关联