计算机视觉

23个系列分类网络,10万分类预训练模型,这是飞桨PaddleClas百宝箱

a 夏天 提交于 2020-04-30 19:41:14
如何训练出优秀的图像分类模型?飞桨图像分类套件 PaddleClas 来助力。 今天咱们来聊聊计算机视觉领域最核心的技术之一——图像分类。顾名思义图像分类是指根据图像信息把不同类别的图像自动区分开来,并能指出图像类别信息。如图 1 所示,当前图像分类技术有着非常广泛的应用场景。 图 1 图像分类技术应用 此外图像分类技术在计算机视觉各类任务中堪称「基石」,这和人类的视觉方面的技能树点亮顺序很像。婴儿在能看清周围事物后,父母除了教他认识爸爸妈妈之外,还会通过画本告诉他,这是花,这是草,这是车,这是飞机等等,这其实就是训练图像分类的过程。可以说图像分类是人类最先学到的一门本领。而在此基础之上,才会继续学会指出什么物体在什么位置(目标检测),以及如何去接触物体(图像分割)等等。如果您仔细分析下计算机视觉的其它技术,您会发现,也确实是如此。 对于其它视觉任务,像图像目标检测、图像分割、图像检索、自然场景文字检测和识别、人脸检测和识别等等,常常将图像分类的网络结构作为骨干网络。例如使用基于 ImageNet1K 分类数据集训练的模型作为特征提取器,来提升目标任务的组网效率和效果。如果把某个视觉任务看成是建造一栋大楼,图像分类的网络结构和预训练模型则可以看成是这栋大楼牢固的地基和稳定的骨架。 图像分类如此重要,可想而知训练出优秀的图像分类模型也是一个很有挑战的任务

【LeetCode】15. 3Sum

空扰寡人 提交于 2020-04-30 07:16:50
我的个人 微信公众号: Microstrong 微信公众号ID: MicrostrongAI 微信公众号介绍:Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容,分享在学习过程中的读书笔记!期待您的关注,欢迎一起学习交流进步! 知乎主页:https://www.zhihu.com/people/MicrostrongAI/activities Github:https://github.com/Microstrong0305 个人博客:https://blog.csdn.net/program_developer 15. 3Sum Given an array nums of n integers, are there elements a , b , c in nums such that a + b + c = 0? Find all unique triplets in the array which gives the sum of zero. Note: The solution set must not contain duplicate triplets. Example: Given array nums = [-1, 0, 1, 2, -1, -4], A solution set is: [ [-1, 0, 1], [

用一部手机实现高精度人脸建模:靠算法修复缺失数据,效果堪比专业设备

别来无恙 提交于 2020-04-29 13:08:09
  如何得到一个人的高精度面部三维模型?   通常情况下,对某个人的脸进行精确的三维重建需要昂贵的设备和专业知识技能,比如要用摄影棚、相机、3D 扫描仪等等,各种各样的工作都集中在使用光度学立体或多视图立体技术来进行面部结构重建。   现在,卡内基梅隆大学(CMU)的研究人员使用普通智能手机录制的视频完成了这项壮举。 用智能手机拍摄脸部正面和侧面的连续视频,在深度学习算法的帮助下分析这些数据,成功对多个面部进行了数字重建,实验结果表明,他们的方法可以达到亚毫米精度,堪比专业化的处理。      图|CMU 的方法(c)与传统最先进的方法(d)效果对比(来源:CMU)   本研究项目的成员之一、CMU 机器人研究所副研究员西蒙 · 露西(Simon Lucey)表示,面部的三维重建一直是计算机视觉和图形领域的一个公开问题,因为人们对面部特征的外观非常敏感,即使重建过程中出现轻微异常,也可能使最终结果看起来与现实差别较大,高水平的细节是个难点,也是栩栩如生的关键。   如今, 数字脸可以用来构建游戏角色或 AR、VR 的化身,也可以用于动画、影视制作、社交、生物识别甚至医疗等领域 ,商业空间可谓十分广泛,而整个制作过程或许会越来越便捷。      视频|数据采集和优化过程(来源:CMU)   研究人员在慢动作拍摄中使用了 iPhone X,高帧速率的慢动作是原始数据采集的关键之一

高德地图首席科学家任小枫QA答疑汇总丨视觉+地图技术有哪些新玩法?

一笑奈何 提交于 2020-04-29 11:16:01
上周,阿里巴巴高德地图首席科学家任小枫在#大咖学长云对话#的在线直播活动上就计算机视觉相关技术发展以及在地图出行领域的应用与大家做技术交流,直播间互动火爆,尤其在QA环节,学弟学妹们纷纷就感兴趣的视觉应用、AR导航、定位技术、5G、职业发展等话题提问,任小枫做了精彩回答。我们整理了问答内容,分享给大家。 视频回放地址 : https://vku.youku.com/live/ilproom?id=8064786 任小枫博士,现任阿里巴巴高德地图首席科学家,研究员,主要负责视觉技术在地图和出行领域的应用和创新。加入阿里巴巴前,他在2013到2017年间供职于亚马逊,是亚马逊的资深主任科学家和AMAZON GO的算法负责人。浙江大学本科毕业,加州大学伯克利分校博士,华盛顿大学计算机系客座教授,CVPR/ICCV/AAAI等会议领域主席,IEEE PAMI副主编。 视觉技术发展及应用 提问:计算机视觉在高精度地图构建中的应用有哪些? 任小枫 :视觉算法对于高精度地图构建是核心的技术,主要应用在资料对齐和精度保证、识别和地图数据自动化生成、视觉定位和高精地图更新等。 提问:您觉得现有的基础学科研究水平与硬件水平能否保证视觉技术的快速发展?视觉技术发展在近期会不会遇到较难突破的瓶颈? 任小枫 :经过了前几年深度学习技术在视觉各个领域的快速发展,一定程度上说

全球银行专利榜出炉 消费金融欲赶超?

笑着哭i 提交于 2020-04-28 23:12:00
近日,具有全球影响力的知识产权产业媒体IPRdaily与incoPat创新指数研究中心联合发布“2019年全球银行发明专利排行榜(TOP100)”,在上榜的100家银行机构中,有8家银行2019年公开的专利申请数量突破100件,其中,公开专利量在500件以上的三家银行均来自中国。 (图片来源:IPRdaily创新指数研究中心榜单) 据了解,国内银行的专利技术布局侧重点向数据存储/处理、智能交易、身份信息识别/检测、深度学习等领域。 排名第一的微众银行专利主要覆盖方向包括联邦学习(41%)、NLP/智能语音(16%)、机器学习(10%)、广告/推荐技术(9%)、计算机视觉(7%)等方面。 (图片来源:公开资料) 随着5G技术等新的科技革命和产业变革的不断深入,日新月异的需求、颠覆性技术推陈出新、数字化和信息透明化进程加快,都促使银行业加速转型。 此前,中国人民银行印发《金融科技(FinTech)发展规划(2019-2021年)》明确提出,金融科技是技术驱动的金融创新。中国金融机构在技术创新方面的发展继续提速。 与此同时,非银行类金融机构在这方面的投入也逐渐增多。 以持牌消费金融公司为例, 马上消费金融(以下简称“马上金融”)申请专利已累计提交220余项。其专利主要覆盖大数据技术(32.81%)、智能语音技术(17.19%)、风控技术(16.67%)等方向。 (图片来源:公开资料)

人工智能一般要学多久 选择Python入门怎么样

左心房为你撑大大i 提交于 2020-04-28 13:49:12
  人工智能一般要学多久?选择Python入门怎么样?目前,人工智能被列入国家战略和超级风口,国内外许多科技巨头企业都纷纷成立自己的人工智能实验室,人工智能行业是未来发展的重中之重。许多人都想来学人工智能,人工智能全栈学习时长多久呢?下面一同来看看吧。   一般来说,人工智能全栈学习时间在五个月左右,要有权威资深师资阵容,业内极具责任心、懂教学、拥有超强技术、有大型项目经验实战派讲师授课,由业内知名专家及企业技术骨干组成。   那么,你知道学人工智能可以从事哪些岗位吗?你知道人工智能将创造什么规模的市场吗?到2030年人工智能预计将创造七万亿美元规模的大市场!又可以新增无数个就业岗位,但是你能不能找到自己的位置呢?   而且人工智能主要使用语言是python,因为python的开发效率非常高,而且类库丰富,特别适合人工智能。目前我国人工智能人才缺口特别大,人工智能人才需求量远远大于供应量,竟然出现月薪四万都找不到合适的人才。   学会人工智能你可以从事这些岗位哦!AI算法工程师、AI机器学习软件工程师;AI语音工程师、AI游戏工程师;计算机视觉算法工程师、智能驾驶全栈部署软件工程师;高级前端工程师…这些还只是一部分而已,相信随着人工智能的发展,对人工智能人才的需求量会越来越大! 来源: oschina 链接: https://my.oschina.net/u/4295884

优秀博士学位论:基于深度学习的自然场景文字检测与识别方法研究

谁说我不能喝 提交于 2020-04-28 08:32:25
   【优秀博士学位论精华版】    摘 要   本文基于深度学习框架,构建了一套场景文字检测与识别算法系统。针对检测问题,提出一种快速任意方向文字检测方法,该方法基于“片段链接”思想,将长文字拆解为局部的片段,以及片段之间的链接;针对识别问题,提出一种端到端可训练的文字识别神经网络模型,该模型将卷积神经网络、循环神经网络和联结时序分类三者结合,能够直接从图片中识别出文字内容,并且可以端到端的训练。    关 键 字   场景文字;文字检测;文字识别;卷积神经网络;循环神经网络    0 引言   现代社会是高度符号化的社会,大量信息通过文字和符号来记载和传递。因此,文字在图像和视频中广泛存在。文字是书籍、报刊、文件和名片等印刷品的基本组成元素,并且广泛存在于自然场景的各种物体上,例如路牌、商品包装、车辆牌照和店铺门面等。广义上的文字还包含自然语言文字以外的书写系统,例如摩斯码和五线谱等。理解图片中的文字在计算机视觉中一直处于重要的位置。从图像中识别文字的技术通常被称作光学字符识别(OCR),它是计算机视觉最早的应用之一。   传统的OCR 方法大多针对扫描文档图片设计。这些图片通常由扫描仪等设备获取,成像过程受控;识别方法往往基于二值化和浅层分类器等技术。自然图片中的文字通常被称作场景文字(scene text)。场景文字检测识别是传统OCR 在自然图片上的延续和升级

分析《Pytorch 深度学习》PDF中文+mobi+epub+源代码

时光毁灭记忆、已成空白 提交于 2020-04-27 02:55:07
深度学习为世界上的智能系统(比如Google Voice、Siri和Alexa)提供了动力。随着硬件(如GPU)和软件框架(如PyTorch、Keras、TensorFlow和CNTK)的进步以及大数据的可用性,人们在文本、视觉和分析等领域更容易实施相应问题的解决方案。 使用PyTorch轻松开发深度学习应用程序推荐学习《Pytorch 深度学习》。《Pytorch 深度学习》对当今前沿的深度学习库PyTorch进行了讲解。凭借其易学习性、高效性以及与Python开发的天然亲近性,PyTorch获得了深度学习研究人员以及数据科学家们的关注。 《Pytorch 深度学习》中文PDF,212页,带目录,文字可复制;英文PDF,250页,带目录,文字可复制;配套源代码。 下载: https://pan.baidu.com/s/1MGw_g3EYdZtQMTQK6roNHw 提取码: ky3j 从PyTorch的安装讲起,然后介绍了为现代深度学习提供驱动力的多个基础模块,还介绍了使用CNN、RNN、LSTM以及其他网络模型解决问题的方法。对多个先进的深度学习架构的概念(比如ResNet、DenseNet、Inception和Seq2Seq)进行了阐述,但没有深挖其背后的数学细节。与GPU计算相关的知识、使用PyTorch训练模型的方法,以及用来生成文本和图像的复杂神经网络(如生成网络)

单图像三维重建、2D到3D风格迁移和3D DeepDream

十年热恋 提交于 2020-04-26 18:26:15
作者:Longway Date:2020-04-25 来源: 单图像三维重建、2D到3D风格迁移和3D DeepDream 项目网址: http://hiroharu-kato.com/projects_en/neural_renderer.html 代码网址:https://github.com/hiroharu-kato/neural_renderer 论文名称:Neural 3D Mesh Renderer(CVPR2018) 概述 对于二维图像背后的三维世界建模,哪一种三维表示最合适?现在常见的表示方法有点云、体素和网格,其中多边形网格具有良好的紧致性和几何性质。但是使用神经网络直接由多边形网格生成图像比较困难,因为光栅化的过程阻止了反向传播。因此,作者提出了一个近似的梯度栅格化,使渲染集成到神经网络。使用这个渲染器,可以执行带有轮廓图像监督的单图像三维网格重建,并且该系统比现有的基于体素的方法更好。此外,作者还首次在2D监督下执行基于梯度的3D网格编辑操作,如2D到3D风格迁移和3D DeepDream。 简介 从二维图像理解三维世界是计算机视觉的基本问题之一。人类在大脑中使用视网膜上的图像来模拟3D世界,机器也可以通过在2D图像背后显式地建模3D世界来更智能地工作。从3D世界生成图像的过程叫做渲染,这在计算机视觉里面非常重要。哪种3D表示方法是最适合建模3D世界

综述国内外三维视觉测量系统的发展现状[转]

天涯浪子 提交于 2020-04-26 15:40:28
转自:https://blog.csdn.net/zhaohongliang360/article/details/80675938 1.1 相关技术综述 二维视觉测量采用单摄像机测量目标在特定平面中的位置,如美国的Adept机器人装配系统、足球机器人等。在二维视觉测量中,摄像机与测量平面之间的距离固定,这使得其应用受到很大的限制 [1] 。 与二维图像信息相比,三维信息能够更全面、真实地反映客观物体,提供更大的信息量。近年来,各种技术应用于三维信息测量中,由此形成了各类三维测量系统。经过几十年发展,三维视觉测量系统已具有较成熟的理论和技术基础,生产实践也不断证明这类系统操作简便、适应性强、精度高 [2] 。 从狭义上讲,三维视觉测量技术即通过计算机分析处理,让计算机不仅具有和人眼一样的视觉感受,而且能够获得人眼所不能直接获得的经过量化的物体参数。 获取空间三维物体的距离信息是三维成像、三维物体重建和计算机辅助设计中最基础的内容,有着广泛的实际应用价值。进入二十世纪90年代以来,各种硬件和软件技术的发展使得人们不仅能处理二维图像而且开始处理三维图像,许多能获取三维图像的设备和处理分析三维图像的系统研制成功,大大扩展了人们对客观世界的认识 [3] 。光学三维形貌测量具有非接触、高精度、高效率的特点,并且在科研、医学诊断、工程设计、刑事侦查现场痕迹分析、自动在线检测、质量控制