计算机视觉

转:图像分类、物体检测、物体分割、实例分割、语义分割

被刻印的时光 ゝ 提交于 2020-11-27 03:51:51
0001,常识1 计算机视觉的任务很多,有图像分类、目标检测、语义分割、实例分割和全景分割等,那它们的区别是什么呢? 1、Image Classification(图像分类) 图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片输出图片里含有哪些分类,比如下图的例子是含有person、sheep和dog三种。 2、Object detection(目标检测) 目标检测(上图右)简单来说就是图片里面有什么?分别在哪里?(把它们用矩形框框住) 目前常用的目标检测算法有Faster R-CNN和基于YOLO的目标检测的算法 3、semantic segmentation(语义分割) 通常意义上的目标分割指的就是语义分割 语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。 4、Instance segmentation(实例分割) 实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3...)

OpenCV 学习笔记 07 目标检测与识别

有些话、适合烂在心里 提交于 2020-11-27 03:25:56
目标检测与识别是计算机视觉中最常见的挑战之一。属于高级主题。 本章节将扩展目标检测的概念,首先探讨人脸识别技术,然后将该技术应用到显示生活中的各种目标检测。 1 目标检测与识别技术 为了与 OpenCV 学习笔记 05 人脸检测和识别 进行区分;需重新说明一下什么是目标检测。 目标检测是一个程序,它用来确定图像的某个区域是否有要识别的对象,对象识别是程序识别对象的能力。识别通常只处理已检测到对象的区域。若人们总是会在有人脸图像的区域去识别人脸。 在计算机视觉中有很多目标检测和识别的技术,本章会用到: 梯度直方图(Histogram of Oriented Gradient, HOG) 图像金字塔(image pyramid) 滑动窗口(sliding window) 与特征检测算法不同,这些算法是互补的。如在梯度直方图(HOG)中会使用滑动窗口技术。 1.1 HOG 描述符 HOG 是一个特征描述符,因此 HOG 与 SIFT、SURF 和 ORB 属于同一类型的描述符。 在图像和视觉处理中常常会进行目标检测,其实目标检测的内部机制都差不多,如人脸识别的 LBPH 描述符: 第一步:将图像划分成多个部分 第二步:计算各个部分的梯度 HOG 不是基于颜色值而是基于梯度来计算直方图。 HOG 所得到的 特征描述符 能够为 特征匹配 和 目标检测 (或目标识别)提供非常重要的信息。

热门的模型跨界,Transformer、GPT做CV任务一文大盘点

那年仲夏 提交于 2020-11-26 13:45:09
作者|陈萍 来源|机器之心 可能大家心里都有一种错误认知,做自然语言处理任务的模型不能够用来进行计算机视觉任务。其实不然,现阶段已出现好多研究,它们通过算法的改进,将在 NLP 领域表现良好的模型,如 Transformer、GPT 等进行改进并应用于视觉任务,不仅实现了模型跨界,而且取得了不错的性能。 模型跨界效果如何呢? 人工智能的快速发展已经淋漓尽致地体现在我们的日常生活中,从人脸识别、语音识别到机器翻译等等,无不展示着 AI 带来的便利。已经落地的产品层出不穷,其后的算法模型你又了解多少呢?有些模型不仅在自己的领域表现出色,更能跨界出圈。 近几年,NLP 领域的算法势如破竹,不断取得新突破,CV 领域同样不断取得创新。新工具、新算法、新算力等不断迭代更新,在各自领域大放异彩。 如果说将 NLP 领域的模型应用到 CV 领域,或反之,那效果该如何呢?模型跨界是否可行? 答案是肯定的。下面我们来盘点一下模型的跨界、破界表现如何?本文介绍的内容包括: 《End-to-End Object Detection with Transformers》:Facebook 将 Transformer 应用于目标检测任务; 《Generative Pretraining from Pixels》:OpenAI 用 GPT-2 做图像分类的尝试; 《LAMBDANETWORKS:

SimpleITK学习(一)基本概念

Deadly 提交于 2020-11-25 03:13:58
断断续续使用simpleitk处理CT和X光图片有些时间了,但是学的知识都比较零散,没有形成系统的概念,于是对着SimpleITK的英文文档 https://simpleitk.readthedocs.io/en/master/index.html 学习一遍,再结合自己的一点经验,做一点总结。 SimpleITK是ITK的简化接口,使用起来更加方便,有多种语言接口,我平时用的都是python版,安装比较简单,pip install SimpleITK即可 SimpleITK是专门处理医学影像的软件,在SimpleITK中,图像的概念与我们在计算机视觉中常用的RGB图像差异很大,后者只是一个多维矩阵,是一个数学上的概念,而在SimpleITK中,图像是一种物理实体,图像中的每一个像素都是物理空间中的一个点,不光有着像素值,还有着坐标,间距,方向等概念 下图是一个直观的解释 size:图像在各维度的像素个数 spacing:图像各维度上像素之间的距离(物理层面的,有单位,一般为mm) physical extent:图像在物理空间中的大小 Origin:图像原点的坐标(物理层面的,有单位,一般为mm,与spacing保持一致) direction:采用方向余弦矩阵,也就是图像自身坐标系相对于世界坐标系(固定不动的)的角度,再直白点就是新坐标系在原坐标系上各个方向的投影,百度百科

深源恒际与阳光产险合作升级:AR视频智能定损上线 人人都是定损员

随声附和 提交于 2020-11-24 19:51:20
本文作者:c****t   近期,深源恒际推出AR视频智能定损产品,并就此与阳光产险达成进一步合作。作为图像定损产品的升级版,AR视频智能定损产品直接面向终端用户开放,用户按照系统操作指引拍摄、上传视频,即可快速获取定损结果、维修方案及理赔金额,整个定损环节由车主自主完成。   近年来,随着国内汽车保有量持续增长以及商车费改等相关政策的出台,车险投保率持续增高。对保险公司而言,利用前沿技术手段提升服务效率、满足不断扩大的市场需求,是顺应行业发展的必然选择。   深源恒际致力于计算机视觉技术研究应用,着重面向保险及保险相关的泛金融领域,打造行业应用级计算机视觉引擎,植根于业务场景下的痛点需求,提供相应的技术解决方案。   2018年,深源恒际首次面向车险理赔场景推出图像定损产品,并与阳光产险达成合作。基于图像识别技术,结合海量样本数据,构建车辆外观损伤识别专用算法模型,自动识别、判断车辆外观损伤情况,包括损伤位置、损伤部件、损伤类型及损伤程度等。   图像定损的应用帮助阳光产险实现了定损作业自动化,用户上传损伤照片后系统自动判断伤情并输出定损报告,无需定损员现场查勘,一方面大幅节约了人力成本,另一方面也有效提升了理赔服务效率。   今年5月,深源恒际对图像定损产品进行全面优化,在图像识别基础上增加了视频检测、视频跟踪、AR等技术手段,由图像定损升级为AR视频智能定损

深度学习“垄断”!分析17万篇AI顶会论文,他们首次揭示了计算资源贫富分化的证据

☆樱花仙子☆ 提交于 2020-11-24 08:30:27
大数据文摘出品 作者:龙葳、mickey “权力、专家、数据,正在向少数几家巨头公司汇集。” 2019年,当图灵奖得主Yoshua Bengio说出这句话的时候,所有人其实都早有感知。 的确, 深度学习时代,学术界计算能力的不平等正在进一步加剧不平等。 但最近,第一次有学者将“人工智能资源的垄断”作为研究对象进行了详细的分析,并且将结果用论文呈现了出来。 这一研究来自弗吉尼亚理工大学和西方大学的人工智能研究人员。作为“非精英大学”的代表,他们分析了60场全球顶级人工智能峰会(包括ACL, ICML, and NeurIPS )的171394篇论文后得出结论,学术界算理的不平等正在加剧,特别是排名中下的大学,学术资源每年都在被蚕食。 论文给出了几个有意思的结论: 自2012年深度学习的意外增长以来,公司,尤其是大型技术公司和精英大学增加了对主要AI会议的参与;这里的精英大学指的是在QS世界大学排名中排名1-50的大学; 此外,研究人员发现了两种策略,可以通过这些策略来提高公司在人工智能研究领域中的影响力:首先,公司为单独发表人的论文研究发布数量在逐年增多;其次,公司主要与精英大学合作进行论文研究。因此,公司和精英大学在人工智能研究中的不断增长,挤占了排名中等(QS排名201-300)和排名靠后(QS排名301-500)大学的资源。 此外,研究还发现,大批研究人员正离开大学

图像局部特征提取

梦想的初衷 提交于 2020-11-23 05:18:05
图像特征 可以包括颜色特征、纹理特征、形状特征以及局部特征点等。其中局部特点具有很好的稳定性,不容易受外界环境的干扰。 图像特征提取 是图像分析与图像识别的前提,它是将高维的图像数据进行简化表达最有效的方式,从一幅图像的的数据矩阵中,我们看不出任何信息,所以我们必须根据这些数据提取出图像中的关键信息,一些基本元件以及它们的关系。 图像局部特征 描述的核心问题是不变性(鲁棒性)和可区分性。由于使用局部图像特征描述子的时候,通常是为了鲁棒地处理各种图像变换的情况。因此,在构建/设计特征描述子的时候,不变性问题就是首先需要考虑的问题。在宽基线匹配中,需要考虑特征描述子对于视角变化的不变性、对尺度变化的不变性、对旋转变化的不变性等;在形状识别和物体检索中,需要考虑特征描述子对形状的不变性。 局部特征点 是图像特征的局部表达,它只能反应图像上具有的局部特殊性,所以它只适合于对图像进行匹配,检索等应用。对于图像理解则不太适合。而后者更关心一些全局特征,如颜色分布,纹理特征,主要物体的形状等。全局特征容易受到环境的干扰,光照,旋转,噪声等不利因素都会影响全局特征。相比而言,局部特征点,往往对应着图像中的一些线条交叉,明暗变化的结构中,受到的干扰也少。 对于局部特征的检测,通常使用 局部图像描述子 来进行。 斑点 与 角点 是两类局部特征点。斑点通常是指与周围有着颜色和灰度差别的区域

依图的人工智能求索路

匆匆过客 提交于 2020-11-22 09:48:27
作者 | 中国软件网 陈杨 校对 | 中国软件网 赵满满 2012年,人工智能对大众而言还是个陌生的专业词汇,在企业、组织几乎未得到应用。 早早便学习用数据理解刻画世界的加州大学洛杉矶分校(UCLA)统计学博士朱珑毅然辞去纽约大学(NYU)Courant数学研究研究员的职位,拉上高中同学,时任阿里云技术总监的林晨曦,一起回国创业。 朱珑说:“虽然深度学习在当时还没有被产业广泛采用,但我有一种感觉,以深度学习为代表的人工智能距离产业化非常近了。” 8年后的天,在AlphaGo的带动下,人工智能一词早已走进大街小巷。文字识别、语音识别、人脸识别等基于人工智能技术的应用被广泛采用。 朱珑所创办的人工智能公司,在八九年的时间里早已成为AI独角兽,估值超过百亿。由于在计算机视觉的突出表现,这家AI创企也被评为“AI四小龙”之一,并在9年时间里获得9轮融资,近期于科创板上市一事更是引得业界关注。 这家AI创企,便是依图科技。 图片来自依图 01 从算法起家 令人意想不到的是,在计算机视觉领域获得这么大的成功,或许并不是朱珑主动选择的,更像是机缘巧合。 “我们一开始就做业务拓展,都去跑客户。业务各个方向都想过:车、人脸、文字,再近一点就是人身上的东西,比如拍一拍找衣服,跟人贴得近的,逻辑上很容易成立。这些方向我们在脑子里都尝试了。” 更没想到的是,依图收获的第一个客户是苏州市公安局

目标检测Anchor的What/Where/When/Why/How

别来无恙 提交于 2020-11-21 12:26:51
本文转载自知乎,已获作者yanwan授权转载。 https://zhuanlan.zhihu.com/p/150332784 也许你正在学习计算机视觉的路上,并且已经深入研究了图像分类和滑动窗口检测器。 在掌握了这些概念之后,了解最新技术(SOTA)目标检测,往往会变得令人望而生畏和晦涩难懂,尤其是在理解 Anchor 时。 毋庸讳言,深入大量流行的YOLO、SSD、R-CNN、Fast RCNN、Faster RCNN、Mask RCNN和RetinaNet,了解 Anchor 是一项艰巨的工作,尤其是在您对实际代码了解有限时。 如果我告诉你,你可以利用今天深入学习目标检测背后的 Anchor 呢?本文目标是帮助读者梳理Anchor的以下内容: What :anchor是什么? Where :如何以及在何处对图像生成anchor以用于目标检测训练? When :何时可以生成anchor? Why: 为什么要学习偏移而不是实际值? How :如何在训练过程中修正选定的anchor以实现训练对象检测模型? 1、What:anchor是什么? anchor是指预定义的框集合,其宽度和高度与数据集中对象的宽度和高度相匹配。预置的anchor包含在数据集中存在的对象大小的组合,这自然包括数据中存在的 不同长宽比和比例 。通常在图像中的每一个位置预置4-10个anchor。

吞吐性能翻倍!搭载了第三代Tensor Core的A100是怎么做到的?

扶醉桌前 提交于 2020-11-21 02:39:43
时隔三年,英伟达最强芯片 Tesla V100 终于有了继任者,那就是在2020年5月14日, NVIDIA发布的最新 GPU A100 。 GPU A100不仅能实现 1-50 倍的扩展 ,还让其 吞吐性能翻倍 。而其吞吐性能提升的主要功臣是其架构中搭载的第三代Tensor Core单元。 Tensor Core是怎么做到这些的?如何在现有的函数库与Kernel中使用Tensor Core?有没有落地实践案例可以做参考呢?如果你想了解更多关于Tensor Core的信息, 那么这个分享绝对不能错过! 英伟达即将在 2020年 8月26 日 20:00-21:30 进行“ 看搭载了第三代Tensor Core的A100如何实现了吞吐性能翻倍 ”的直播分享,直播主要内容如下: 直播介绍: 2020年5月14日, NVIDIA发布了最新的GPU架构:安培, 以及基于安培架构最新的GPU A100. 在安培架构中新增了功能强大的第三代Tensor Core单元。 相较于V100, A100上搭载的第三代Tensor Core增加了对DL和HPC数据类型的全面支持, 提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。 第三代Tensor Core新特性如下: 新增了Tensor Float-32(TF32)数据类型操作,提供了对FP32数据的加速能力