深度学习

【转】浅谈人类视觉系统与卷积神经网络(CNN)的联系和区别

邮差的信 提交于 2020-10-07 06:24:58
浅谈人类视觉系统与卷积神经网络(CNN)的联系和区别 文章转载: 叶强 深度学习 / 强化学习 / 机器学习 / 算法 / 眼科学 声明:本文为作者原创、欢迎免费规范转载。本文使用的一些图片素材来自于网络,感谢素材提供方,如有侵权请联系告知。 前言 熟悉深度学习的朋友们一定不会对卷积神经网络(CNN)感到陌生,与传统的全连接深度学习神经网络(DNN)相比,CNN具有权重参数共享、灵活的特征检测等特点,其一定程度上甚至独立于主流的DNN。关于CNN,大家可能都广泛知晓其背后的灵感来自于人视觉系统中一个叫感受野的(receptive field)概念。其实CNN只是借用了这一概念,其整体机制与人的视觉系统还是有很大的差别。读完本文后,您将会对此有更加清晰的认识,并可能为您在基于视频处理的下一代神经网络研究中提供些灵感。 由于本人对于深度学习这一块知识的掌握仍有不少欠缺,可能会有一些错误的理解和表述,诚恳接受专业人士批评指正。 本文会同时涉及人工智能领域的深度学习以及神经科学中的视觉系统两方面知识,但不要求读者同时具备这两方面知识。同时由于突出重点及篇幅限制,本文不打算介绍单个神经元的解剖结构和生理功能,事先简单了解这部分知识将有助于对本文的理解。 一、简述CNN的历史和发展 CNN比深度学习成名要早,在2006年开启新一轮深度学习热潮的标志性论文发表以前

深度学习目标检测系列之YOLO9000

我只是一个虾纸丫 提交于 2020-10-07 05:10:14
1.闲言 在正式的学习之前,我喜欢先放飞一下自我。我觉得技术就是用来聊的,找个酒馆,找些大神,咱们听着音乐一起聊起来。所以我特别希望能把自己的文字口语化,就像玩一样。就像古代那些说书人一样,萧远山和慕容博相视一笑,王图霸业,血海深仇,尽归尘土。这是我向往的一种表达方式,但是我现在还达不到那个境界,只能尽力而为吧。 2.YOLOV2 1.十个改造点 yolov1提升了目标检测的速度,但是在MAP方面却掉了上去。所以说铁打的大神,流水的模型,他们自然会想尽各种办法来解决这个问题。在我看来这就好像程序员写bug一样,到头来总是要改的。所以yolov2可以分为两个部分,第一部分是对MAP提升所做的努力,第二部分是对原来模型的优化,当然是在保证检测速度的前提下。 下面的10个点,是V2的大神们做出的努力。这意味着什么,速度的提升?准确率的提升?模型的泛化能力提升?对,但是更重要的我觉得是工作量的体现,年终的结算。有时候看paper的时候,我们觉得这些大神们都跟圣人一样。他们做出的所有努力都是要造福社会,都是为了推动AI视觉的进一步发展。其实他们也是人,也会有来自各方面的限制,也会有自己的私心,一些小小的任性和种种生而为人而不能的无奈。所以读paper就是在和大神们对话,一边说着你真牛逼,一边在心里面想着我一定要超越你。 下来我们来解释一下,如果说模型预测出来的结果不是很令人满意

阿里云ECS云服务器通用型g6和g5的区别以及选择建议

房东的猫 提交于 2020-10-07 04:42:42
阿里云ECS云服务器通用型g6和g5的区别以及选择建议 阿里云ECS云服务器通用型g6和通用型g5实例有什么区别?通用型g5和g6都是用于性能均衡场景,CPU内存比都是1:4,本文来说说通用型g6和通用型g5的区别以及选择方法:官方文档: 云服务器ECS共享标准型S6实例 ECS云服务器通用型g6和通用型g5有什么区别? 顾名思义,通用型g6是通用型g5的升级版,ECS云服务器通用型g6是第六代云服务器,性能全面提升的同时价格有所下调,如何选择?云E优站长博客建议选择通用型g6实例。 通用型g6云服务器是阿里云的第六代云服务器,第六代云服务器是基于第二代Intel至强可扩展处理器,睿频从上一代2.7Ghz提升到3.2Ghz,E2E计算性能有3-15%的提升;支持vnni指令集,对于深度学习的推理场景有2-4倍性能提升;虚拟化优化性能抖动,ping flood延时超过1ms的报文数<1/100万。 通用型g6和通用型g5区别对比表 综上,阿里云ECS云服务器通用型g6是通用型g5的升级版,性能有所提升,如何选择?新手站长网还是建议性价比放在第一位,虽然通用型g6是g5的升级版,但是通用型g5的性能也不差,如果通用型g5拥有更优惠的折扣,通用型g5也是可以选择的。 来源: oschina 链接: https://my.oschina.net/u/4385631/blog/4281818

AI美颜中的磨皮算法之一

眉间皱痕 提交于 2020-10-07 04:29:59
AI 美颜磨皮算法目前还没有具体定义,各大公司也都处于摸索阶段,图玩智能科技为企业提供更优质更稳定的美颜产品及服务,欢迎随时咨询 www.toivan.com .今天 先看一下磨皮算法的一般流程: 这个流程图是一般传统的磨皮算法流程图,而本文将基于这个流程图,结合深度学习做一些改进。 在这个流程图中,主要的模块有两个:滤波模块和肤色区域检测模块; 滤波模块中,包含了三种算法: 1,保边滤波器滤波算法 该方法是指通过一些具有保留边缘的能力的滤波器,来将图像磨平,达到皮肤平滑的目的; 这类滤波器主要有: ①双边滤波器 ②导向滤波器 ③Surface Blur表面模糊滤波器 ④局部均值滤波器 ⑤加权最小二乘滤波器(WLS滤波器) ⑥Smart blur等等。 此方法皮肤区域比较平滑,细节较少,需要后期添加细节信息,来保留一些自然的纹理; 2,高反差减弱算法 高反差保留算法是指通过高反差来得到皮肤细节的MASK,根据MASK中细节区域,比如皮肤中的斑点区域位置,将原图对应区域进行颜色减淡处理,以此来达到斑点弱化,美肤的目的; 该方法在保留纹理的同时,减弱了皮肤瑕疵与斑点的颜色,使得皮肤看起来比较光滑自然; 3,其他算法 这里是指一些未知的算法,当然已知的也有,比如:基于保边滤波和高反差的磨皮算法,该方法同时对原图做了1-2步骤,得到一张光滑的滤波图和高反差对应的细节MASK

ACM MM2020 | 爱奇艺提出卡通人脸识别的基准数据集

為{幸葍}努か 提交于 2020-10-07 02:52:24
摘要 : 本文提出了一个卡通人脸识别的基准数据集i Cart oon Face ,并设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。 论文链接: https://arxiv.org/pdf/1907.13394.pdf 导读: 通过人脸识别技术对视频中的人物信息进行结构化分析,目前已在爱奇艺公司的多个产品中应用,例如“奇观”、“只看他”等,给用户带来了良好的交互体验。为了推动了人脸识别技术的快速发展,爱奇艺在 2018年 、 2019年 相继举办了多模态人物识别竞赛。与此同时,学术界、工业界对卡通人物识别领域的研究较少,为了促进相关研究和带来良好的用户体验,本文提出了 iCartoonFace 卡通识别数据集和对相关算法进行了研究,并成功落地到爱奇艺“奇观”、“逗芽”等产品中。 背景 : 近年来,伴随着卡通产业的迅猛发展,卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。同时伴随着人脸识别技术的发展,人物识别精度大幅提升,在Labeled Faces in the Wild(LFW)等图片数据集上,人脸识别精度甚至超过了人类的识别能力。然而,对卡通人物身份的识别,却鲜有研究,相关的数据集也比较少,如下表1。对于深度学习来说,这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模

8次迭代5大升级,旷视天元1.0预览版正式发布

回眸只為那壹抹淺笑 提交于 2020-10-07 02:27:28
9月18日,在中关村论坛旷视平行论坛上,旷视研究院院长、首席科学家孙剑正式发布了深度学习开源框架天元MegEngine 1.0预览版,并对天元的技术特性与发展方向进行了深入解读。 旷视于2014年开始研发深度学习框架天元。目前,旷视1400多名研发人员全员使用天元MegEngine,旷视所有算法均通过天元MegEngine进行训练和推理。2020年3月,旷视正式开源天元框架,提供给全球开发者使用。开源以来,天元从3月的Alpha版本升级到6月的Beta版本、到9月的1.0版本,期间经历了8次迭代。 相比此前的版本,此次天元1.0预览版实现了5项重要的技术升级。 首先,天元提供了全新的Imperative Runtime。 天元通过重写动态执行引擎,打破了过去几个版本中动态图的限制,解决了一系列资源释放的问题,并大幅提升了动态自由度,让使用GPU计算像NumPy一样方便自如。 其次,天元新增了自动代码裁剪功能。 在实际的AI应用开发中,用户经常面临模型大小的问题。自动代码裁剪功能让用户可以全自动的针对自己网络使用的算子进行代码裁剪,不再用手工配置将最小化推理时的代码体积,极大提升端侧推理的竞争力。 然后,天元进行了10余项推理侧性能优化,进一步提升了端侧推理性能。 同时,天元支持了更多的国产硬件。 天元对于主流的一些国产硬件进行了接入,方便在国产NPU芯片上进行推理工作。 最后

生成对抗网络(GAN)的数学原理全解

久未见 提交于 2020-10-07 00:22:06
©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成、情绪对抗样本生成 论文标题: A Mathematical Introduction to Generative Adversarial Nets 论文链接: https://arxiv.org/abs/2009.00169 引言 Goodfellow 大神的开创性工作 GAN 自 2014 年诞生以来,GAN 就受到了极大的关注,并且这种关注导致了 GANs 的新思想、新技术和新应用的爆炸式增长。 GAN 的原论文中的证明会有一些不严谨的地方,并且在算法中为了训练效率更高,也有很多简化,其实这也是这个领域的一个常见现象,在北大的深度学习的数学原理的暑期课上,老师就提到过 深度学习中数学严谨证明占 6 成 。 言外之意就是该领域的证明过程并没有纯数学的那么严谨,当从计算机科学工程师角度去推导证明的时候,往往会有跟实际相悖的前提假设,但是从该假设推导出来的结论却是与实验结果相符或者该结论会对解决实际问题中有一定的指导意义。 该作者是一个数学底蕴很强的 AI 研究者,该论文的目的是试图从数学的角度对 GANs 进行概述,是一篇不可多得好有关 GAN 数学原理的理论性文章,论文中涉及到大量的数学原理和很多让人眼花缭乱的数学符号,可以把它当成一个 GAN 的理论手册

GAN/VAE地位难保? Flow在零样本识别任务上大显身手

ε祈祈猫儿з 提交于 2020-10-06 12:11:40
     作者 | 秦杰、沈钰明   编辑 | 陈大鑫   计算机视觉三大会议之一的ECCV 2020刚刚落下帷幕,本文主要介绍阿联酋起源人工智能研究院(IIAI)的科学家们在该会议上发表的一篇论文:《Invertible Zero-Shot Recognition Flows》。   该工作首次提出了一种基于生成流(Generative Flow)模型的零样本学习方法,并在多个数据库上取得了目前最好的识别结果。      论文链接: https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610596.pdf   1   零样本学习简介   众所周知,在当今计算机视觉领域,深度学习可谓“一统天下”,在诸多视觉任务中都取得了目前最好的(检测、识别、分割等)结果。而数据可谓是深度学习算法的“Buff”,算法的好坏往往取决于是否有充足且多样性的标注好的训练数据。   举例而言,我们要识别下图中的三种动物,那么首先我们需要标注大量老虎、兔子和斑马的图片,然后基于这些有标签的图片训练深度学习模型,最后将未知类别的图片输入训练好的模型中,才能够准确识别出图片中包含的动物类别。   然而,在实际应用场景中,我们往往会遇到以下“尴尬”情况:当我们在训练深度学习模型时,能“看见”的是标注好的大量老虎和兔子的图片

杂乱场景中的尺度层次三维目标识别

久未见 提交于 2020-10-06 09:38:07
点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 论文标题 :Scale-Hierarchical 3D Object Recognition in Cluttered Scenes 作者: Prabin Bariya,Ko Nishino 论文地址: 在公众号「 3D 视觉工坊 」,后台回复「 三维目标识别 」,即可直接下载。 摘要 :三维目标识别在遮挡和杂乱场景中的是一项艰巨的任务。在本文中,引入一种利用几何尺度的可变性的方法来解决这一任务,其关键在于利用局部几何结构的尺度变化所提供的丰富判别信息来约束模型与场景点之间潜在对应的大量搜索空间,尤其是可以利用几何尺度的变异性来计算每个内在几何尺度的形式特征,还有由内在几何尺度集合后诱导的层次结构和局部尺度相关的三维形状描述符的辨别力,该方法以一种由粗到细的分层方式来利用增加的信息,从而有效地筛选所有潜在通信的空间。本文在大量的真实场景上实验评估了该方法的准确性与不同数量的部分遮挡,识别率较先进方法高,此外,尽管存在着全局尺度变化,本文也系统地演示了该方法能够准确定位目标。 一 、简介 三维目标识别旨在正确识别三维场景中的对象,通常要获得目标的深度图像,并估计其位置和每个对象的方向。三维场景是杂乱无章的,场景中的物体也存在相互遮挡,传统的三维物体识别方法一般包括两个阶段:特征提取和匹配。在特征提取阶段

吴恩达Deeplearning.ai国庆节上新:生成对抗网络(GAN)专项课程

南楼画角 提交于 2020-10-06 09:35:37
Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了。 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强大的机器学习模型之一,其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛,比如防御对抗攻击和数据匿名化来保护隐私,以提升网络安全性,再比如生成新图像,为黑白图像着色、提高图像分辨率、2D 图像转 3D 等技术。 随着算力的增强,GAN 的普及程度和功能也不断提升,开启了许多新的方向:比如生成大量数据用来训练模型,让无监督模型生成更加清晰、准确的输出图像,同时也为相近研究领域提供了对抗学习、对抗样本、模型鲁棒性等方面的启示。 近日,DeepLearning.AI 推出了《生成对抗网络(GAN)专项课程》,系统介绍了使用 GAN 生成图像的理论及方法。此外还包括机器学习偏见、隐私保护等社会影响话题的讨论。 这门课程适用于对机器学习感兴趣并希望了解 GAN 的工作原理的软件工程师、学生和研究者。专项课程内容尽可能做到通俗易懂,让进入课程的人都真正理解 GAN 并学会使用。 但在进入这门课程之前,学习者应该具备关于深度学习、卷积神经网络的知识,具备一定的 Python 技能和深度学习框架(TensorFlow、Keras、PyTorch)的使用经验,且精通微积分、线性代数