计算机视觉

Github累积1.6万颗星,这家AI公司的开源项目有望让程序员少加班

◇◆丶佛笑我妖孽 提交于 2020-10-02 09:57:38
  OpenMMLab 是商汤科技开源的一个计算机视觉领域的 AI 算法框架。自 2018 年 10 月逐步开源以来,OpenMMLab 在软件源代码托管服务平台 Github 上共累积了 1.6 万个星。   开发 OpenMMLab 对于商汤来说意味着什么?商汤对于未来 OpenMMLab 又会有怎样的发展计划?   为此,DeepTech 对商汤科技联合创始人、香港中文大学信息工程系教授林达华进行了专访。      图 | 商汤科技联合创始人、香港中文大学信息工程系教授(来源:香港中文大学)   OpenMMLab 不是一个算法,而是一个覆盖了十多个研究的垂直领域,共包含 100 多种算法和 600 多种模型的算法框架, 这是 “迄今为止最完备的算法体系和框架”。目前,OpenMMLab 聚焦的方向包括:图像分类、检测、语义分割、动作识别、3D 点云、图像的超分辨率、图像的修补、图像的编辑、人体关键点的检测还有跟踪。这些是整个计算机视觉领域最主要的方向,也是在实际运用中被最广泛推动的一些方向。   林达华表示,完成一个人工智能算法的开发是一个非常复杂的过程,从简单的想法开始到最后的落地,有很多工程化方面的问题,要花费大量的实践和工程资源。“有了 OpenMMLab,那么全球 AI 方面做研发的时候,很多新的想法、创造性的想法、创新性的想法

阿里斩获AI领域 “奥斯卡” 四项冠军,新研究可精准预测视频目标位置

陌路散爱 提交于 2020-10-02 08:38:23
  业界普遍认为,视频分割技术将成为线上会议、直播、自动驾驶、影视制作等场景的标配。例如直播场景使用阿里 AI 算法,可以实现一秒钟替换背景;在自动驾驶中,视频分割也是自动驾驶系统识别障碍物的关键技术。因此,视频分割技术将会和我们更加息息相关。   近日,全球计算机视觉顶会 CVPR 2020(CVPR,即 IEEE 国际计算机视觉与模式识别会议)公布各大挑战赛结果,阿里巴巴(以下称“阿里”)获得四项比赛的世界冠军,其中,在难度最高的 DAVIS( Densely Annotated Video Segmentation,密集标注视频分割 )挑战赛中,阿里提出了可以精准预测视频目标位置的方法,并且首次以超过 80 分的成绩夺得第一名。   CVPR 是 AI 领域规模最大的会议,被誉为计算机视觉领域“奥斯卡”,其范围涵盖计算机视觉领域的前瞻学术研究和工业应用,会议的研究成果体现着视觉 AI 领域研究的趋势。由于视频会议、直播等应用逐渐普及,2020 年顶级科技公司的研究成果逐步从图像延伸到视频领域,涉及视频压缩、视频分割、三维视觉等领域。   和图像识别不同,AI 分析理解视频的技术门槛更高,长期以来,业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS 为例,该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息。过去几年

8个机器学习项目创意,助你在求职竞争中脱颖而出

流过昼夜 提交于 2020-10-02 03:36:01
本文转载自公众号“读芯术”(ID:AI_Discovery)。 纸上得来终觉浅,绝知此事要躬行。光看教程是不够的,你需要通过实践来掌握更多更真实的内容。以下有8个创意十足的机器学习实操项目供你选择,赶紧行动起来吧! 1. 基于社交媒体帖子的抑郁情绪分析 世界上有超过2.64亿人患有抑郁症。抑郁症是全球残疾、疾病的主要原因,每年都有近80万人自杀身亡——自杀是15-29岁人群死亡的第二大原因。但与之相对的是,针对抑郁症的治疗却经常不到位、不及时、不精确。 网络为改变早期抑郁提供了机会,尤其是针对青年人的病症。推特上每时每刻发送的推文几乎超过35万条,每天发送5亿条,每年则约2000亿条。 皮尤研究中心指出,72%的人依靠互联网生活。社交网络发布的数据集对于很多领域都很重要,比如人文科学和大脑研究。通过分析社交媒体帖子中的语言标记,可以建立深度学习模型,使个人了解其心理健康状况,这种方法比传统方法快很多。 2. 使用神经网络将体育比赛视频转换为文本摘要 图源:Unsplash 这个项目的想法是,从体育比赛视频中获取精确的摘要,而后将高光部分发布在体育网站上。科学家已经提出了各种用于提取文本摘要的模型,但是神经网络的效果最好。一般来说,摘要是指在一个简要的结构中引入信息,集中传达事实和信息,同时保证其重要性。 自动生成游戏视频的摘要给辨别游戏高光部分带来了挑战。 为了完成上述任务

Jürgen Schmidhuber发文纪念10年前的研究,网友:转折点非AlexNet?

感情迁移 提交于 2020-10-01 23:50:33
Jürgen Schmidhuber 每次发博客都会引起一阵「腥风血雨」,这次似乎也不例外。 最近,这位机器学习大牛发布博客,纪念 10 年前发表在 Neural Computation 期刊上的一篇论文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》,这篇文章主要介绍通过在 GPU 上执行梯度下降来训练深度多层感知机。 论文地址: https://www. catalyzex.com/paper/arx iv:1003.0358 在博客开头,Jürgen 这样评价该论文: 令人惊讶的是,这个简单但深层的监督式神经网络在机器学习基准数据集 MNIST 上的性能超过所有之前的方法。也就是说,在计算成本相当于今天 100 倍的 2010 年,我们提出的前馈神经网络和更早提出的循环神经网络就在当时的重要问题上打败了所有竞争算法。2010 年代,这一深度学习改革迅速从欧洲向美洲和亚洲扩展。 博客的具体内容如下: 仅仅在十年前,很多人认为深度神经网络在不进行无监督预训练的情况下无法学习。事实上,2007 年 Geoffrey Hinton 在《The Next Generation of Neural Networks》讲座中表示「明智的人不会建议

UCLA教授朱松纯被曝回国任教清华,曾创办湖北莲花山研究院,李飞飞等人受益

生来就可爱ヽ(ⅴ<●) 提交于 2020-10-01 13:14:53
  近日,现任美国洛杉矶加州大学(UCLA)统计系与计算机系教授,UCLA 计算机视觉、认知、学习与自主机器人中心主任的朱松纯,被曝即将回国入职清华大学任教。据清华大学《拟聘新进校人员公示名单》公示消息显示,朱松纯将入职的是清华大学自动化系,职务为教研系列教授。      图 | 朱松纯(来源:朱松纯百科)   据了解,朱松纯出生于湖北省鄂州市,他是全球著名计算机视觉专家、统计与应用数学家、人工智能专家,过去多年来在认知科学领域如视觉常识推理、场景理解等方面,做出了重要贡献。   其曾于 1996 年获美国哈佛大学计算机博士学位,师从国际数学大师大卫 · 曼福德教授(David Mumford),后者是菲尔兹奖得主、美国国家科学奖章获得者和国际数学家协会前主席。   目前,朱松纯已在国际顶级期刊和会议上发表论文 300 余篇,其研究成果集中在以下四个时期和领域:    视觉的统计建模与计算理论   1995-2005 年期间,朱松纯与导师曼福德、UCLA 同事以及博士生等人,为计算视觉创始人 David Marr 提出的早期视觉概念包括纹理、图像基元以及原始简约图等,建立了一个统一的数理模型。   在此期间,他还提出统计建模的最小最大熵原理(minimax entropy principle)。随后,他还将神经学和心理学的发现,植入统计物理的吉布斯模型

HEVC标准介绍+论文阅读笔记

最后都变了- 提交于 2020-10-01 11:37:27
脱离视频编解码、投入计算机视觉一年,这个博客也歇业一年,最近偷些时间回顾一下编解码,毕竟花费了整个研一的时间(虽然这一年基本上在上课)。 之前写过几篇H.264标准的几篇介绍文章,详见: http://www.cnblogs.com/DwyaneTalk/category/615769.html 后来转入HEVC,相关知识就记录在某某云笔记了,最近整理出来重新看看,所以打算把与HEVC相关的、觉得有价值的放在这个博客里,希望对新人有所帮助。 这里只是一个目录,主要包括HEVC标准介绍、HEVC帧间预测论文笔记两部分 一、HEVC标准介绍 参考:《High Efficiency Video Coding (HEVC)》,这本书某东1K+大洋,虽然我一直支持正版,但是对于没有收入的学生来数还是挺贵的。所以如果想要这本书电子版(非扫描版)的学生,可以给我留言,对于有经济能力的工作人士,建议还是购买书籍和电子版。 1、 【HEVC简介】CTU、CU、PU、TU结构 2、 【HEVC简介】High Level Syntax 3、 【HEVC简介】Inter Prediction Tools 4、 【HEVC简介】SAO-Sample Adaptive Offset, 样本自适应偏移量 5、 【HEVC简介】ALF-Adative Loop Filter 6、 【HEVC简介】DB

直播回顾|结构光3D相机光机核心技术及3D成像性能分析

纵饮孤独 提交于 2020-10-01 11:28:18
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 大家好,本公众号现已开启线上视频公开课,主讲人通过B站直播间( bilibili号:3D视觉工坊:https://space.bilibili.com/483478083 ),对3D视觉领域相关知识点进行讲解,欢迎大家的关注。 往期精彩: 第一期:东北大学李奇 《 基于深度学习的物体抓取位置估计 》 第二期:上海交通大学沈毅君 《相机标定的基本原理与经验分享》 第三期:西安交通大学潘浩洋 《 基于点云的三维物体表示与生成模型 》 第四期:北京科技大学李阳阳《 求职经验分享 》 第五期:ChaucerG《 聊聊目标检测和秋招那些事 》 第六期:镭神智能创始人雷祖芳《 基于激光雷达的感知、定位导航应用 》 第七期:东北大学龚益群《 图像对齐算法 》 第八期:武汉大学李迎松博士《 立体视觉之立体匹配与实战 》 第九期:北京中科慧眼CTO崔峰《 深度相机与应用 》 第十期:博众精工技术总监杨军超《 结构光编码与三维重建技术 》 视频回顾: 本期由熵智科技(深圳)有限公司联合创始人&CTO高磊博士和深圳市安华光电技术有限公司副总经理朱青博士分享,主题为《 结构光3D相机 光机核心技术及3D成像性能分析 》,下面我们来一起回顾一下吧。 长按下方的图片,可以直接跳转到小程序播放。 PDF获取方式: 关注公众号【计算机视觉工坊】

学术分享丨视触觉传感器的研究进展

╄→尐↘猪︶ㄣ 提交于 2020-10-01 11:14:37
     随着机器人技术的飞速发展,其操控精细化应用是精密制造、科学实验、助老助残与医疗服务等国民经济重要领域的迫切需求。为实现机器人灵巧精细操作任务,对接触力的感知和推理对于精确地控制与环境的交互至关重要。近年出现的视触觉传感器,通过视觉图像对触觉信息的表征,而逐渐成为了热点。典型代表的GelSight传感器被用于研究物体的微观形状和力的检测。其中,弹性体、反射涂层、照明和相机是提高传感器性能的主要挑战。在今年的ICRA(IEEE International Conference on Robotics and Automation)会议中,研究人员针对GelSight传感器的不足,提出了改进。    1. OmniTact传感器——“OmniTact: A Multi-Directional High-Resolution Touch Sensor”   本文介绍了一种多方向高分辨率触觉传感器OmniTact。OmniTact被设计用来作为机械手操作的指尖,并使用多个微型摄像机来检测凝胶皮肤的多方位变形。这提供了丰富的信号,通过使用现代图像处理和计算机视觉方法,从中可以推断出各种不同的接触状态变量。与GelSight传感器相比(图1),有类似的高分辨率光学传感原理,但有几个关键的区别:1)该传感器提供多向视野,在曲面上提供高灵敏度。2)在传感器中,硅胶直接接触相机上

刷手支付上线!从今天起,你在亚马逊购物真要「剁手」了

假如想象 提交于 2020-10-01 09:00:31
  机器之心报道    作者:微胖、徐丹    手掌是新的指纹。Amazon One是Amazon的一项新服务,是一种新颖的非接触式付款方式,可扫描您的手掌进行身份验证。除付款外,它还可用于需要身份验证的任何事物,例如进入体育场或出示会员卡。   客人喜欢排队吗?答案显然是否定的。当手掌成为新的指纹,你的结账速度能有多快?   9月29日,机器之心消息,据亚马逊内部人士透露,亚马逊「人手支付」系统已正式上线,名称为「Amazon One」。美东时间上午八点,该系统会在亚马逊西雅图总部附近的两家Amazon Go便利店首次亮相。   Amazon Go是一种无需结账台的新型商店,自近两年前在亚马逊西雅图总部一楼首次亮相以来,亚马逊已在美国开设了24个Amazon Go门店。   在以往的进店和结算方式中,访客必须在旋转门上扫描Amazon Go应用,才能进入消费。离店后,借助摄像头和传感器,关联帐户会自动结算。   现在,有了新的生物识别技术 Amazon One,进店和付款方式进一步升级。购物者在门口或结账时将手掌放在扫描仪上,即可完成付款。   外媒曾有消息报道(未经官方证实),该系统的识别错误率在百万分之一以内,而亚马逊的工程师正努力将其提高到一亿分之一以内。   该技术的响应速度也非常快,普通的银行卡交易需要 3 到 4 秒,但亚马逊的这一系统只需要 0.3 秒

猪也能有读心术?马斯克在猪身上演示脑机接口技术

孤人 提交于 2020-10-01 06:18:08
编译|小小 出品|网易智能 美国当地时间周五下午,在脑机接口创企Neuralink所在的加州弗里蒙特总部,其创始人 埃隆·马斯克(Elon Musk)在猪身上演示了该公司技术所取得的最新进展。 马斯克在演示开始时表示,整个演示的目的是 为了招聘人才,而不是为了筹款或任何其他形式的技术推广。 他说:“我们并不是要筹集资金或做其他事情,主要目的是吸引人才来Neuralink工作,并帮助我们开发出产品,让它变得负担得起、可靠,这样任何想要的人都可以拥有它。” 马斯克接着说,他想要普遍使用这种技术的原因是,随着时间的推移,几乎每个人都会有某种 神经问题, 包括记忆力丧失、焦虑、脑损伤、抑郁症和一长串其他疾病。当然,没有明确的证据表明,这一长串问题都可以通过一个解决方案快速轻松地“解决”,所以将其视为公司合理的最终目标有点儿具有挑战性。 马斯克随后将观众的注意力吸引到附近围栏里的三头猪身上,附近有饲养员照顾。 这三头猪中有一头大脑中没有植入物,第二头猪植入了名为“Link”的Neuralink设备,第三头猪之前植入了该设备但后来被移除。 这些增强型猪的大脑活动可以无线传输到附近的电脑上,让活动现场的观众可以看到马斯克抚摸猪鼻子时这些动物的神经元活动。 马斯克在此次活动中谈到了 这项技术解决脑损伤和其他疾病的潜力。 他说:“神经元就像电线,你需要一个电子设备来解决电子问题。