计算机视觉

CVPR 2019 | 告别低分辨率网络,微软提出高分辨率深度神经网络HRNet

爷,独闯天下 提交于 2020-12-18 09:38:09
我爱计算机视觉曾经两次报道HRNet: 1. CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法 ( 论文出来第二天就向大家推送解读了 ) 2. 分割、检测与定位,高分辨率网络显神威!这会是席卷深度学习的通用结构吗? (HRNet扩展版应用) 事实证明该论文的确影响力很大,已经出现了基于HRNet的工作发布于arXiv。 本文来自 微软研究院AI头条,为论文第一作者自己的解读,希望对大家有帮助。 编者按: 对于视觉识别中的区域层次和像素层次问题,分类网络(如ResNet、VGGNet等)学到的表征分辨率比较低,在此基础上恢复的高分辨率表征空间区分度仍然不够强,使其在对空间精度敏感的任务上很难取得准确的预测结果。为此,微软亚洲研究院视觉计算组提出高分辨率深度神经网络(HRNet),对网络结构做了基础性的改变,由传统的串行连接高低分辨率卷积,改成并行连接高低分辨率卷积,通过全程保持高分辨率和对高低分辨率表征的多次信息交换来学到丰富的高分辨率表征,在多个数据集的人体姿态估计任务中取得了最佳的性能。 前言 视觉识别主要包括三大类问题:图像层次(图像分类),区域层次(目标检测)和像素层次(比如图像分割、人体姿态估计和人脸对齐等)。最近几年,用于图像分类的卷积神经网络成为解决视觉识别问题的标准结构,比如图1所示的LeNet-5

机器学习数据集

喜夏-厌秋 提交于 2020-12-16 13:00:18
外国自媒体 mlmemoirs 根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~ 提前说两个须知: 寻找数据集の奥义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。 数据集不应包含太多行或列,否则会难以使用。 数据越干净越好,清理大型数据集可能非常耗时。 应该预设一个有趣的问题,而这个问题又可以用数据来回答。 去哪里找数据集 Kaggle :爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,拉面评级、篮球数据、甚至西雅图的宠物许可证。 https://www.kaggle.com/ UCI机器学习库 :最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。 http://mlr.cs.umass.edu/ml/ VisualData :分好类的计算机视觉数据集,可以搜索~ https://www.visualdata.io/ 好了,下面就是那50个数据集了,由于后期加上了一些补充,所以总数已经超过了50。 机器学习数据集 图片 Labelme:带注释的大型图像数据集。 http://labelme.csail.mit.edu/Release3.0

【计算机视觉】常用图像数据集

感情迁移 提交于 2020-12-16 12:59:04
图像数据集 模型需要好的数据才能训练出结果,本文总结了机器学习图像方面常用数据集。 MNIST Link 机器学习入门的标准数据集(Hello World!),10个类别,0-9 手写数字。包含了60,000 张 28x28 的二值训练图像,10,000 张 28x28 的二值测试图像。 最早的深度卷积网络 LeNet 便是针对 MNIST 数据集的,MNIST 数据集之所以是机器学习的 “Hello World”,是因为当前主流深度学习框架几乎无一例外将 MNIST 数据集的处理作为介绍及入门第一教程,其中 Tensorflow 关于 MNIST 的教程非常详细。 COCO Link COCO 是一个大规模的对象识别、分割以及 Captioning 数据集。具有以下特点: Object segmentation Recognition in context Superpixel stuff segmentation 330K images (>200K labeled) 1.5 million object instances 80 object categories 91 stuff categories 5 captions per image 250,000 people with keypoints 以 2014 年的数据为例,其包含两种文件类型(训练、验证文件均有)

机器学习和计算机视觉的前20个图像数据集

拈花ヽ惹草 提交于 2020-12-16 12:12:56
计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以完成的任务自动化。 计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。 用于计算机视觉训练的图像数据集 Labelme: 由 MIT 计算机科学和人工智能实验室( CSAIL )创建的大型数据集,包含 187,240 张图像, 62,197 条带注释的图像和 658,992 张带标签的对象。 http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php 乐高积木: 通过文件夹和使用 Blender 渲染的计算机对 16 种不同乐高积木进行分类的大约 12,700 张图像。 https://www.kaggle.com/joosthazelzet/lego-brick-images ImageNet: 用于新算法的实际图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。 http://image-net.org/ LSUN : 场景理解和许多辅助任务(房间布局估计,显着性预测等) http://lsun.cs.princeton.edu/2016/ MS COCO : COCO

AI留给教练的时间已经不多了

左心房为你撑大大i 提交于 2020-12-14 22:14:46
文/黄康瑄 来源/智能相对论(ID:aixdlun) 上周末,由于新冠疫情而不断推迟的NBA 2020-2021季前赛终于开打。失去卫冕机会后,因伤病而沉寂了去年整个赛季的勇士队又遭遇了汤普森报销、格林和怀兹曼核酸检测呈阳性等一连串不幸,可谓命运多舛。“战术鬼才”泰伦·卢成为快船主教练后,小卡连季前赛都得乖乖上场。即便如此,快船在第一战对阵没有詹姆斯的湖人,依然以六分惜败,可说是出师不利。 卢指导们的工作可不只安排上场阵容一项,还包括战术制定、球员训练、临场指挥、球队管理、新秀挑选。现今,人工智能已经能承担其中部份职责,甚至在某些方面做的比人类教练更加出色,教练的饭碗似乎受到了威胁。 除了主力球员们的实力, 情报资料的获取、分析与应用也对战术制定乃至比赛胜负有着至关重要的影响。 尤其是一年一度、采取循环赛制的NBA,无论是季前赛、常规赛、季后赛还是明星赛,每场赛事都是数据资料的珍贵情报源,谁能从中挖取更多有效情报,谁就能更了解对手,在比赛中先发制人、抢占先机。在球员交易和新人选秀上也是如此。毕竟知己知彼,百战不殆。 如今,在竞争激烈的NBA赛场上,最了解球员的早已并非球队教练、也不是对阵多次的老对手、甚至不是球员自己,而是人工智能。 滴水不漏的AI监控 过去,获取球队及球员资料的方式只有一个——目测。藉由观看比赛,记录每位球员的投篮、罚球、犯规、篮板、抄截等攻防数据,再经由统计分析

香港中文大学(深圳)韩晓光博士团队招聘博士后和工程师多名

≡放荡痞女 提交于 2020-12-13 12:46:03
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 韩晓光博士现为香港中文大学(深圳)助理教授。其研究方向包括计算机视觉、计算机图形学以及医疗图像处理等,在该方向著名国际期刊和会议发表论文近 40 篇,包括顶级会议和期刊 SIGGRAPH, CVPR, ICCV, ECCV, NeurIPS, AAAI, ACMMM, ACM TOG, IEEE TVCG 等,其中 CVPR/ICCV/ECCV 三大计算机视觉顶级会议口头报告多篇。 他的团队目前包括博士研究生 10 名和硕士研究生 4 名。他的团队连续两年获得 CVPR 最佳论文提名(入选率为 0.8% 和 0.4%),他的团队主推的 DeepFashion3D 数据集获得 Chinagraph 开源数据集奖,他的工作曾获得计算机图形学顶级会议 Siggraph Asia 2013 新兴技术最佳演示奖,入选 2016 年年度最佳计算论文之一,他的团队于 2018 年 11 月获得 IEEE ICDM 全球气象挑战赛冠军(参赛队伍1700多)。 更多细节详见: http://mypage.cuhk.edu.cn/academics/hanxiaoguang/ 博士后 岗位职责:

Non-local Neural Networks笔记

半世苍凉 提交于 2020-12-13 10:53:21
Non-local Neural Networks 非局部神经网络 Non-local Neural Networks 1introduction 2.Related Work 3.Non-local Neural Networks 3.1Formulation 3.2Instantiations 3.3Non-local Block 文章链接: 2018cvprNon-local neural Network 摘要:所有的卷积和递归操作单次使用都是通过一个局部邻域来生成一个特征块,这篇文章展示了一种提取远距离关系的通用方法, 灵感 来源于计算机视觉领域的传统方法 非局部均值 ,**non-local计算所有位置特征的加权和来表示一个位置的相应,**此方法能够即插即用到很多CV框架中。 1introduction 获取远距离信息的互相关系在神经网络中是非常重要的。对于连续的数据,递归作为主流的方法来建模长程关系。对于图像数据,远距离的依赖关系通过 堆叠卷积得到的大感受野 来建模;不管是空间或者时间,卷积和递归都处理的局部邻域的信息;因此只有通过重复这些操作,利用数据渐进的传播信号才能提取到长程的依赖关系,反复的局部操作有以下几点限制: 1计算效率低,2优化困难需要非常细微的调整,3上述问题导致了多链接关系建模困难。 Non

从零开始一起学习SLAM | 你好,点云

旧时模样 提交于 2020-12-12 19:42:21
本文提纲 先热热身 点云是啥 你知道点云优缺点吗? 点云库PCL:开发者的福音 PCL安装指北 炒鸡简单的PCL实践 留个作业再走 先热热身 小白:hi,师兄,好久不见 师兄:师妹好,上周单应矩阵作业做了吗? 小白:嗯,做了,这个单应矩阵真的挺有意思的。作业之外,我发现了一个新技能。。。 师兄:什么技能? 小白:我发现很多网上流传的图片都可以用上次我学过的单应矩阵实现,你看这张图,我第一次看到还以为是真的 现在知道这不就是我们上节课讲的单应矩阵的变换吗? 果然我在网上找到了原图 现在我也会用OpenCV里的单应函数做这样的图了~ 师兄:哈哈,厉害了,会学以致用了。话说回来,今天有啥想问的? 小白:嗯,最近在看点云相关的,师兄要不给我扫扫盲吧? 师兄:这个我也有些了解,就把我知道的给你说说吧 小白:yeah,师兄最棒! 点云是啥 师兄:那我就当你是个小白吧,从点云的定义说起。点云的英文是“point cloud”,点云的意思和它的名字一样,就是一堆点的集合,看起来像是一坨“云”。 小白:一坨。。。 师兄:哦,一坨不太文雅,应该是像一片“云”一样。上面只是一种形象的说法,其实点云在编程实现的时候是一种数据结构,用来表达多维空间中点的集合,这个多维空间一般对我们来说是三维空间。 小白:哦,原来如此,也就是我们所在的 XYZ 空间咯 师兄:对,因此点云在三维相关的领域内用的很多

opencv简单实用(cv2)

有些话、适合烂在心里 提交于 2020-12-12 00:39:10
一、介绍 安装:pip install opencv-python OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。OpenCV于1999年由Intel建立,如今由Willow Garage提供支持。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。 二、画图测试 import cv2 img =cv2.imread( " 1.jpg " ) # 获取图片句柄 cv2.imshow( " image " ,img) # 打开图片,(不会等待,会直接关闭) cv2.waitKey(0) # 等待键盘输入,0代表任意键盘,(即输入任意键盘后,关闭图片) cv2.destroyAllWindows() # 关闭所有图片窗口,防止异常 # 画线 color=(255,0,0) # 颜色 cv2.line(img,(10,10),(100,100),color,3) # 画线,坐标(10,10)到(100,100)这2个点的直线 cv2.imshow( " image " ,img) cv2.waitKey(0) cv2.destroyAllWindows() color =