计算机视觉

磨染的初心——计算机视觉的现状(3.1):图像分割

前提是你 提交于 2019-11-27 02:15:26
磨染的初心——计算机视觉的现状(3.1):图像分割 为了通过材质、形状、结构识别目标,对图像进行分割应该是必然的选择 。在这一点上计算机视觉研究者们算是勉强达成了共识,图像分割甚至被很多研究者列为计算机视觉的基本任务之一了。很多图像分割算法被提了出来,归纳起来可以分为基于阈值的方法、基于聚类的方法、基于区域的方法、基于图割的方法、活动边界模型和水平集、基于卷积神经网络的方法。 基于阈值的方法里,有全局一个阈值的,也有对图像不同区域使用不同阈值的。此类方法的关键在于确定阈值,然而 对于大多数图像即使遍历所有的取值也无法找到实现合理分割的阈值 ,因此该算法常用于符号识别、指纹识别和分割遥感领域中的各种指数图像(水体指数、植被指数、干旱指数、热红外影像)。 凡是认真思考或者亲身尝试过的,都会承认基于聚类的方法的分割结果难以令人接受。 所有的聚类算法都直接或者间接假设了类别内部的样本密度高于类别边界的样本密度 。观察过一些图像的直方图后就会发现, 像素在像元值空间的分布形状通常都类似钟型曲线(只有一个凸起),也就是说按照聚类算法的假设应该将全部像素聚为一类 。即使同时使用多个图像通道,这种情况也没有什么改观。没有或者难以使用空间信息是基于聚类的方法的直接缺陷, 导致分割结果形状复杂、越过显而易见的边界 。通常基于聚类的方法都作为其他算法的预处理步骤,在图像处理领域用于压缩颜色数量。

磨染的初心——计算机视觉的现状(3.0):目标感知

青春壹個敷衍的年華 提交于 2019-11-27 02:14:50
磨染的初心——计算机视觉的现状(3.0):目标感知 前文中列举了五项人类视觉感知理解到的要素,第一项就是目标,后三项都是目标的行为和属性,在三维感知部分也一而再地提到目标。 那么到底什么是目标?具有一定结构和形状的物体吗?物体又是什么呢?粘连在一起的物质吗? 然而仅凭视觉并不能区分物质,视觉能够直接观察到的是图斑。 为什么某些图斑可以结合在一起被识别为目标,而有些又不能呢?将图斑结合为目标的依据是什么? 这一系列问题都不能在计算机视觉的研究成果中找到答案,对这些问题的回答仍然离不开认知心理学,在此给出我的思考权作抛砖引玉。 目标肯定是粘连在一起的具有一定结构和形状的物体,然而这绝对不是目标的本质, 目标的本质应该在于功用——由材质、形状、结构、环境、自然法则、生活经验共同确定下来的对于生存的意义 。对于生存的意义体现在满足了需求,在需求被满足的过程中,人类创造并直接命名了各种目标,比如草、树、河、湖、牛、羊、猪、虎、豹、熊、桌子、椅子、房子等。草、树的果实能够为人类提供碳水化合物,河、湖可以为人类提供水源,牛、羊、猪可以为人类提供肉类,人类可能会成为虎、豹、熊的肉类,桌子、椅子、房子是满足人类居住需求的用具。除了这个定义, 目标与目标之间存在两种关系——类别归属和结构组成 。一眼看去,汽车是由轮子和车厢组成的,而气车又有客车、货车、工程车之分。 在这个目标的定义之下,

磨染的初心——计算机视觉的现状(2):三维感知

丶灬走出姿态 提交于 2019-11-26 20:20:56
磨染的初心——计算机视觉的现状(2):三维感知 首先需要指出的是,对于计算机来说视觉数据的最原始表示是数字图像——栅格(离散)化的三维世界在二维平面的投影,如果要还原三维世界需要经过复杂而耗时的处理过程;对于人眼来说似乎接直接接收到了三维数据。不管事实到底如何,从二维数字图像入手是计算机视觉不得不做出的选择。另外, 基于多视几何的从数字图像还原三维世界的技术虽然已经趋于成熟,但是并没有在计算机视觉研究者中获得广泛的关注。 目前各种分割、目标检测、跟踪等算法方面的进展集中于处理二维数字图像,由此即可窥见计算机视觉当前的进展离“得出场景的完整理解”这个目标的巨大距离。还需了解的是,目前基于多视几何的三维重建相关技术的首要目标并没有将“得出场景的完整理解”考虑在内,仅仅是为了建立真实世界的可视化模型——格网贴图模型,其生产过程经历了自动连接点匹配、光速法平差、极(核)线像对生成、密集立体匹配、点云融合、点云构网、纹理贴图。到密集立体匹配这一步才生成了能够代表三维世界的离散点云数据,如果要获得超过一个像对视域范围的点云数据还需要进行点云融合。 考察我们自己理解场景的两种情形,观察真实的三维世界和观察二维图片,都可以感知到其中的三维信息。 这仿佛暗示了基于多视几何的三维感知手段对于“得出场景的完整理解”并不是举足轻重的 ,其意义或许仅仅在于将真实三维环境与三维环境的透视投影图像区分开来

磨染的初心——计算机视觉的现状(1):缘起

女生的网名这么多〃 提交于 2019-11-26 20:20:25
磨染的初心——计算机视觉的现状(1):缘起 (这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣。可以随意传播,随意喷,CopyLeft。) 有一则广为人知的故事,据称它就是计算机视觉的发端,在1966年,MIT的Marvin Minsky让他的本科生Gerald Jay Sussman“在暑假将摄像机连接到计算机上,让计算机来描述它所看到的东西”。这就是人工智能先驱们对“视觉”问题的态度,雄心勃勃又妄自尊大,认为“视觉感知”不过是“人工智能”实现路线上的一个简单步骤,简单到一个本科生用一个暑假的时间就能完成。半个世纪过去了,步履维艰的事实让大家认识到“视觉感知”也许同“人工智能”一样困难。 在卷积神经网络又一次激起人工智能热潮的当下,回望计算机视觉短短五十来年的发展历程,我们就像在重重困难中迷失了一样企图抓住一根救命的稻草一举获得救赎,然而寄希望于一根稻草来挑战造化的神秀注定是徒劳的。不知道是否是因为经受不住失望的打击,在本次热潮当中有些人已然开始实施“精神胜利大法”了,假装“视觉感知”是一个已经解决的问题,开始挑战“图文互转”之类的高峰,开始参与“机器作画”之类的自娱自乐。与其再一次在“视觉感知”的门外游荡或者“自欺欺人”,有必要将磨染的初心捧出来,拂拭拂拭,将向着初心的工作挑拣出来,将无用的包袱丢掉。 还是从那则故事入手,“让计算机来描述它所看到的东西

机器学习、计算机视觉面经整理(持续完善整理中……)

强颜欢笑 提交于 2019-11-26 12:58:40
算法岗计算机视觉方向 求职经验总结 进入11月份,楼主找工作也基本进入尾声了,从7月份开始关注牛客网,在求职的过程中学到了不少,感谢牛客提供这样一个平台,让自己的求职历程不再孤单。 先说一下楼主教育背景,本科西部末流985,研究生调剂到帝都某文科学校.专业都是CS专业,求职方向都是计算机视觉算法。有某外企以及二线互联网实习经历,本科虽然CS出身,但实际动手能力并不强。研究生的研究方向并不是计算机视觉方向。实习的时候开始接触计算机视觉,自己比较感兴趣,开始转CV方向。回想这几个月的求职经历,其中的辛苦只有自己知道。最终拿到了 百度SP ,京东SSP,美团无人驾驶SP,顺丰科技SP,拼多多SP,以及虹软SP,思科,中电29等offer。 想把我学习与求职路上的一些心得告诉学弟学妹们。 1. 一定要有一门自己比较熟悉的语言。 我由于使用C++ 比较多,所以简历上只写了C++。C++的特性要了解,C++11要了解一些,还有STL。面试中常遇到的一些问题,手写代码实现一个string类,手写代码实现智能指针类,以及STL中的容器的实现机制,多态和继承,构造函数, 析构函数等。推荐看一下 网易云课堂翁恺老师 的C++ 的视频以及经典的几本书。 2.一定要刷题 楼主主要刷了 剑指offer 以及leetcode上的easy,middle的题目。如果编程能力不是很强,推荐可以分类型进行刷题

人工智能时代,所需要了解人工智能的基本常识

给你一囗甜甜゛ 提交于 2019-11-26 12:13:07
  国内对于人工智能的讨论大多是不成体系的碎片式,很难从中深入了解人工智能的发展脉络和技术体系,也很难有实际借鉴意义。人工智能的历史、核心技术和应用情况进行了详细说明,尤其是其中重要的认知技术。这份报告将有助于我们对人工智能和认知技术进行深入了解,也有助于各行业的公司考量人工智能应用的实际价值。   一、概述   近几年各界对人工智能的兴趣激增,自2011年以来,开发与人工智能相关的产品和技术并使之商业化的公司已获得超过总计20亿美元的风险投资,而科技巨头更是投资数十亿美元收购那些人工智能初创公司。相关报道铺天盖地,而巨额投资、计算机导致失业等问题也开始浮现,计算机比人更加聪明并有可能威胁到人类生存这类论断更是被媒体四处引用并引发广泛关注。如果你想要系统地学习人工智能,那么推荐你去看床长人工智能教程。非常棒的大神之作。教程不仅通俗易懂,而且很风趣幽默。点击 这里 可以查看教程。   IBM承诺拨出10亿美元来使他们的认知计算平台Watson商业化。   谷歌在最近几年里的投资主要集中在人工智能领域,比如收购了8个机器人公司和1个机器学习公司。   Facebook聘用了人工智能学界泰斗YannLeCun来创建自己的人工智能实验室,期望在该领域获得重大突破。   牛津大学的研究人员发表了一篇报告表明,美国大约47%的工作因为机器认知技术自动化而变得岌岌可危。   纽约时报畅销书

史上最全解读 | 飞桨模型库重大升级,主流算法模型全覆盖

孤街醉人 提交于 2019-11-26 04:42:12
11 月 5 日,在 Wave Summit+2019 深度学习开发者峰会上,飞桨全新发布和重要升级了最新的 21 项进展,在深度学习开发者社区引起了巨大的反响。 很多未到场的开发者觉得遗憾,希望可以了解飞桨发布会背后的更多技术细节,因此我们特别策划了一个系列稿件,分别从 核心框架、基础模型库、端到端开发套件、工具组件 和 服务平台 五个层面分别详细解读飞桨的核心技术与最新进展,敬请关注。 今天给大家带来的是系列文章之飞桨的 基础模型库解读 。 飞桨模型库,包含 智能视觉 (PaddleCV), 智能文本处理 (PaddleNLP), 智能语音 (PaddleSpeech)和 智能推荐 (PaddleRec)四大领域,飞桨官方支持 100 多个经过产业实践长期打磨的主流模型,其中包括在国际竞赛中夺得冠军的模型;同时开源开放 200 多个预训练模型,助力快速的产业应用。核心内容 1562 字,预计阅读时间 3 分钟。全文 7659 字,强烈建议收藏备查。 飞桨全景图,本文主要针对基础模型库部分进行深度解读。 第一部分,首先看一下最新版本模型库的主要更新点。 本次主要更新点 1.1. PaddleCV 发布训练部署端到端的图像分割库 PaddleSeg,图像分类新增 EfficientNet 等 43 个预训练模型。PaddleDetection 新增 2019 Objects365

谷歌开源 MobileNetV3:新思路 AutoML 改进计算机视觉模型移动端

匆匆过客 提交于 2019-11-26 02:35:26
谷歌从 17 年发布 MobileNets 以来,每隔一年即对该架构进行了调整和优化。现在,开发者们对 MobileNetV3 在一次进行了改进,并将 AutoML 和其他新颖的思想融入到该移动端的深度学习框架中。谷歌发布了相关文章对升级后的 MobileNetV3 进行了讲解,雷锋网 AI 开发者将其整理编译如下。 深度学习融入到移动端的最新创意 将深度学习融合到移动端正成为人工智能领域最活跃的研究领域之一。而设计能够在移动端运行时有效执行的深度学习模型,则需要对神经网络中的许多架构范例进行更进一步的思考。 移动端的深度学习模型需要平衡复杂神经网络结构的精度和移动运行时的性能约束。在移动端深度学习领域中,计算机视觉仍然是最具挑战性的领域之一。 在 2017 年,谷歌推出了基于 TensorFlow 的计算机视觉系列模型 MobileNets。而最新的 MobileNets 架构正是于几天前发布,其中包含了一些改进移动端计算机视觉模型的有趣想法。 MobileNetV3 是该模型结构的第三个版本,它能够为许多主流的移动应用程序提供图像分析的功能。该体系结构还被集成到流行的框架中,例如:TensorFlow Lite。 MobileNet 需要尽可能维持其中发展较快的计算机视觉和深度学习领域与移动环境局限性之间平衡。因此,谷歌一直在定期对 MobileNets 架构进行更新

图像识别——强大的低功耗嵌入式AI方案海思Hi3519AV100介绍

假如想象 提交于 2019-11-26 00:53:08
强大的低功耗嵌入式AI方案海思Hi3519AV100介绍 海思Hi3519AV100是2018年10月在北京安防展展会上第一次进入我们视线的,然后11月初北京一家公司委托我们先研究一下,并从代理拿到初始版本的SDK资料,本人认真看了芯片DATASHEET,当时发觉比公司主推的Hi3519V101+Intel Movidius Myriad 2 MA2450强大,就决定动手做这个芯片方案,为了降低风险,我们只能先出自己的V1.0版本开发板玩玩,等软件工程师和硬件工程师调试SDK软件跑起来,我们才答应北京客户,进行Hi3519AV100项目定制。2019年1月底样机回来,能跑Hi3519AV100 的SDK程序,我们就立刻动手给北京客户定制Hi3519AV100的产品,反而本公司的对外销售的开发板没那么快出来,客户定制优先。本公司2019年3月份才对外出售Hi3519AV100方案的开发板,博客这边一直没多少时间来打理,去年写《图像识别VPU——易用的嵌入式AI支持深度学习平台介绍》里面介绍了Hi3559A这个更强悍的嵌入式AI平台,但是由于海思不对小公司开放SDK资源,我们就没必要这里详细介绍。 时间来到2019年6月,发觉这个上半年推出很多价格适中低功耗嵌入式AI方案,比较有代表性的: 英伟达的JETSON NANO (JETSON TX1的简化版本,注意是TX1的简化

图像识别VPU——易用的嵌入式AI支持深度学习平台介绍

久未见 提交于 2019-11-25 23:01:42
公司玩了大半年的嵌入式AI平台,现在产品进入量产模式,也接触了很多嵌入式方案,有了一些心得体会,本人不才,在这里介绍一下一款简单易用的嵌入式AI方案——Movidius Myriad 2 VPU(MA2450) 和 Myriad X VPU(MA2485)。这里本人重点提示:简单易用的嵌入式AI。现在好多家半导体厂商已经推出嵌入式AI平台,比如华为海思今年4月份发布的Hi3559A,这个样品超过100美金/片,集成寒武纪AI核(遗憾不是最新的版本,因为最近寒武纪又发布最新的AI版本,同时还集成大名鼎鼎Cadence的 4核DSP);赛灵思Xilinx的FPGA—— Zynq 7020,ZU2CG开发难度大,价格不菲,还有其他家的ARM+FPGA方案也不便宜,开发难度也不小;英伟达的GPU——JETSON TX2,TX2核心板英伟达自己生产,价格太贵,不适合产品小型化生产;TI 的TDA2x系列和DAVINCI系列最新的DM505,以及后续的版本,专注辅助驾驶ADAS,他的64bit浮点DSP C66X+EYE也支持深度学习(不要小瞧这个EYE,深度学习方面一个EYE可比2个C66X 浮点DSP还牛),不过功耗太高,软件资源也不好搞到,海掏买美国D3公司DEMO板价格不菲,而且没技术支持开发周期过长,价格也不便宜。鉴于本公司的资源(小公司),我们选择了Intel的Movidius