计算机视觉

目标检测综述

独自空忆成欢 提交于 2020-10-28 16:43:58
目录 1 INTRODUCTION 2 OBJECT DETECTION IN 20 YEARS 2.1 A Road Map of Object Detection 2.1.1 Milestones: Traditional Detectors 2.1.2 Milestones: CNN based Two-stage Detectors 2.1.3 Milestones: CNN based One-stage Detectors 2.2 Object Detection Datasets and Metrics 2.2.1 Metrics 2.3 Technical Evolution in Object Detection 2.3.1 Early Time’s Dark Knowledge 2.3.2 Technical Evolution of Multi-Scale Detection 2.3.3 Technical Evolution of Bounding Box Regression 2.3.4 Technical Evolution of Context Priming 2.3.5 Technical Evolution of Non-Maximum Suppression 2.3.6 Technical Evolution of Hard Negative

【技术综述】多标签图像分类综述

自古美人都是妖i 提交于 2020-10-28 06:49:29
图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大家了解多标签图像分类这一方向,了解更具难度的图像分类。 作者 | 郭冰洋 编辑 | 言有三 1 简介 随着科学技术的进步与发展,图像作为信息传播的重要媒介,在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究,并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视,也促使计算机视觉领域迎来了蓬勃发展的黄金时代。 作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。经过近30年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。 根据分类任务的目标不同,可以将图像分类任务划分成两部分:(1)单标签图像分类;(2)多标签图像分类。 单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量,又可以将单标签图像分类划分成二分类、多类别分类。如下图所示,可以将该图的标签记为海洋,通过单标签图像分类我们可以判定该图像中是否含有海洋。 然而,现实生活中的图片中往往包含多个类别的物体,这也更加符合人的认知习惯

最有影响力的计算机视觉会议及期刊论文

此生再无相见时 提交于 2020-10-28 05:54:48
1 最有影响力的30篇计算机视觉会议论文 选取论文的原则: (1)会议论文,主要来源于以下会议:CVPR, ICCV, ECCV, BMVC, FG, ICIP, ICPR, WACV, ICASSP, MM, IJCAI, UAI, AAAI…(其实后面的几个会议都是打酱油的,AI类的期刊也木有高引CV文章,事实也是如此,没有收录ICML和NIPS等,见谅) (2)发表在2000年以后,数据来源于微软学术搜索(http://academic.research.microsoft.com/),2012年12月初的检索结果 (3)检索次数大于200,PER>50,微软学术搜索的被检索次数未必精确,但能反应大概趋势,PER指意味着每年检索量,自发表次年算到2012年,PER=Cited/(2012-YEAR) 榜单Top 30如下,欢迎拾遗补缺: [1] Rapid Object Detection using a Boosted Cascade of Simple Features (Citations: 3296, PER=299.64) Paul A. Viola, Michael J. Jones @CVPR , vol. 1, pp. 511-518, 2001 [2] Histograms of Oriented Gradients for Human Detection

建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日

落爺英雄遲暮 提交于 2020-10-27 12:59:06
看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。 哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景…… 上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。 这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。 荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?! 别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。) 右图场景是不是更像《天空之城》了? 这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。 除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。 今日天气多云转晴。 雷暴预警!一瞬间天昏地暗,雷电交加。 看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢?

原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

被刻印的时光 ゝ 提交于 2020-10-27 05:52:26
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI “本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处” 虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球—— 穿越到霸道总裁小说的世界,是一种怎样的体验? 最近,一个能满足这种幻(xia)想的快手AI特效火了。 不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。 你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。 硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗? 还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。 看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事? △ 新垣结衣 嗯,新垣结衣是二次元走出来的实锤了! 更妙的是,这样一个AI特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能hold得住: △ 明道 细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。 打破次元壁的技术 所以快手这一堪称「穿越神器」的AI特效,在技术上是如何实现的呢? 快手工程师介绍

这个模型脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

…衆ロ難τιáo~ 提交于 2020-10-27 00:54:10
   编辑:小舟、魔王    近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow。该模型具备比 GAN 更强的脑补能力,能够根据低分辨率输入学习输出的条件分布。该论文已被 ECCV 2020 收录。   超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。   近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。 该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布 。      论文地址:https://arxiv.org/pdf/2006.14200.pdf   项目地址:https://github.com/andreas128/SRFlow?   研究者 使用单个损失函数 ,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性,并学习预测不同逼真度的高分辨率图像。此外,研究者利用 SRFlow 学到的强大图像后验来设计灵活的图像处理技术

AI 人才缺口达 30 万,月薪 35k 却人才难觅,人才发展报告揭秘国内 AI 人才发展现状

末鹿安然 提交于 2020-10-26 05:14:22
近日,工业和信息化部人才交流中心发布了《人工智能产业人才发展报告(2019-2020年版)》 作者:刘琳来源:雷锋网|2020-08-04 09:48 收藏 分享 本文转自雷锋网,如需转载请至雷锋网官网申请授权。 人能尽其才则百事兴。 在众多的当今新兴领域中,AI、大数据无疑是最热的领域之一,也备受政府重视。在 2019 年全国两会政府工作报告,李克强总理首次提出“智能+”,并强调“深化大数据、人工智能等研发应用”。在国家层面,对 AI、大数据都有明确的规划。2017 年,国务院印发了《新一代人工智能发展规划》,提出到 2020 年,初步建成人工智能技术标准、服务体系和产业生态链,人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元。 但尽管如此,人工智能人才短缺仍是该技术在整个行业广泛应用的主要瓶颈。 近日,工业和信息化部人才交流中心发布了《人工智能产业人才发展报告(2019-2020年版)》(以下简称《报告》)。 AI 人才缺口达 30 万,月薪 35k 却人才难觅,人才发展报告揭秘国内 AI 人才发展现状 《报告》调研了 224 家与人工智能相关的企业,92741 个岗位样本,超 38 万个人才样本,认为在我国人工智能产业强劲的发展浪潮中,研究和应用人工智能技术的企业数量不断增加,人才需求在短时间内激增,但人工智能人才储备不足且培养机制不完善

g2o guide

吃可爱长大的小学妹 提交于 2020-10-25 23:59:29
计算机视觉life 公众号文章三步走 从零开始一起学习SLAM | 理解图优化,一步步带你看懂g2o代码 从零开始一起学习SLAM | 掌握g2o顶点编程套路 从零开始一起学习SLAM | 掌握g2o边的代码套路 来源: oschina 链接: https://my.oschina.net/u/4267017/blog/4682248

PyTorch实现,GitHub4000星:微软开源的CV库

可紊 提交于 2020-10-25 12:31:42
  机器之心报道    编辑:魔王、陈萍    本文介绍了微软开源的计算机视觉库,它囊括了计算机视觉领域的最佳实践、代码示例和丰富文档。      近年来,计算机视觉领域突飞猛进,在人脸识别、图像理解、搜索、无人机、地图、半自动和自动驾驶方面得到广泛应用。而这些应用的核心部分是视觉识别任务,如图像分类、目标检测和图像相似度。   在各种计算机视觉模型和应用层出不穷的当下,如何把握发展脉络,跟进领域前沿发展呢?微软创建了一个库,提供构建计算机视觉系统的大量示例和最佳实践指导原则。   项目地址:https://github.com/microsoft/computervision-recipes   这个库旨在构建一个全面的集合,涵盖利用了计算机视觉算法、神经架构和系统运行方面近期进展的工具和示例。   该库没有从头开始创建实现,而是基于已有的 SOTA 库发展而来,并围绕加载图像数据、优化和评估模型、扩展至云端构建了额外的工具函数。此外,微软团队表示,希望通过该项目回答计算机视觉领域的常见问题、指出频繁出现的缺陷问题,并展示如何利用云进行模型训练和部署。   该库中所有示例以 Jupyter notebooks 和常见工具函数的形式呈现。所有示例均使用 PyTorch 作为底层深度学习库。   Jupyter notebooks 地址:https://github.com

大一暑期CS231n网课笔记(1)

99封情书 提交于 2020-10-23 18:46:07
一周前我就已经在看CS231n的网课了,但是当时并没有很好的总结知识点,所以内容不免遗忘许多,开始review啦,一边复习前面的知识点,一边学习后面的知识点。人类的视觉系统是很强大的,尽管这些年在计算机视觉领域我们取得了巨大的进步,但是我们仍有很长的路需要走。 在课程的最开始,我们了解计算机视觉及其发展历史和关于本课程的描述,接下来我们需要深入了解这些算法,学习这些算法在实践中到底是如何工作的。 本课程的第一个重点是 图像分类 问题。 在图像分类中,让你的算法接收一张图作为输入,从固定的类别集合中选出该图像所属的类别,从而对图像分类。 当你在做图像分类的时候,系统接收一些输入图像,比如说可爱的猫咪,并且系统已经清楚一些确定了分类或标签的集合,这些标签可能是一只狗狗或者一只猫咪,也有可能是一辆卡车,亦或是一架飞机,还有一些固定的类别标签集合,那计算机的工作就是看图片并且给它分配其中一些固定的分类标签。 仔细思考,计算机看一张图片时看到的是什么,它肯定没有一只猫咪的整体概念,和我们所看的图片当然是不同的,计算机呈现图片的方式其实就是一大堆数字。所以图像可能就是一些像800乘以600的像素,每一个像素由三个数字表示,给出像素红、绿、蓝三个值,所以,对于计算机来说,这是一个巨大的数字阵列,这很难从中提取猫咪的特性,我们把这个问题定义为语义鸿沟