计算机视觉

CMU 发明“听音识物”机器人,准确率接近 80%

依然范特西╮ 提交于 2020-08-16 15:12:57
  近年来,机器人各个方面的能力都在快速追赶人类,甚至在某些领域已经超过人类。在这一过程中,科学家和工程师们最喜欢在机器人身上打造出类似人类的感官模式,以更好地感知世界。   不过现阶段的很多技术都只专注于再现人类的视觉和触觉,比如炙手可热的计算机视觉技术。相比之下,复制人类其他感官的研究却没有太多进展。   卡内基梅隆大学(CMU)的研究小组近日发表一项新成果——探索如何利用声音开发感知功能更先进的机器人。   他们将机器人命名为 Tilt-Bot,字面意思是 “倾斜机器人”,实际上它是一台通过倾斜托盘研究物体运动和声音之间关系的机器,训练后可以实现一定程度的 “听音识物”,准确率接近 80%。研究成果以论文的形式发表在《机器人学:科学与系统》 Robotics: Science and Systems 上。      图 | 倾斜机器人(来源:Gandhi, Gupta & Pinto.)   听觉与视觉、触觉一样,都是人类收集信息的重要渠道。那么听觉可以为机器人带来什么呢?在回答这个问题之前,我们可以想象一下没有声音的世界。   在这种情况下,我们将极度依赖视觉系统收集信息。看视频必须有字幕,与别人沟通必须用文字和手势,永远不知道背后是不是走过来一个人,除非转过头去看。   即使眼睛和手可以代劳,很多关键信息也无法准确传达,比如语气、声调以及这些变量背后的潜台词和深意。  

使用GluonCV运行目标检测模型

左心房为你撑大大i 提交于 2020-08-16 06:54:06
GluonCV是分布式机器学习社区(DMLC)发布的深度学习计算机视觉工具箱,提供了计算机视觉顶级的算法实现与基本运算(另一个是自然语言处理工具箱GluonNLP). GluonCV简单易用,有很多训练好的模型,通过一行代码就可以下载使用,非常方便. 由于GluonCV是基于MXNet,所以,要先安装MXNet: pip install mxnet 然后,再安装GluonCV: pip install gluoncv GluonCV包含了分类、检测、语义分割等多种计算机视觉应用的模型.下面,以目标检测Faster-RCNN模型为例,说明怎样下载并调用GluonCV的模型. 定义网络: net = model_zoo.get_model( ' faster_rcnn_resnet50_v1b_voc ' , pretrained=True) 其中,'faster_rcnn_resnet50_v1b_voc'为模型名称,pretrained=True表示使用预训练的模型,也就是直接下载GluonCV已经训练好的模型. 定义用到的图片: im_fname = [ ' C:\\Users\\hadoop\\.mxnet\\models\\aa554c60229540cfb4d4999f72134bcb_th.jpg ' ] 对图片进行处理: x, orig_img = data

换脸新潮流:BIGO风靡全球的人脸风格迁移技术

三世轮回 提交于 2020-08-16 01:48:50
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 引 1974年,我国的考古学家在陕西省西安市发掘出了兵马俑,并被其神态各异惟妙惟肖的面部表情所震撼。同年,一篇名为《A Parametric Model for Human Faces》论文迈出了人脸属性编辑这一领域的第一步。而半个世纪后的今天,BIGO自主研发的FaceMagic的换脸技术让你随心所欲地化身为兵马俑,世界名画,或者电影里的超级英雄, 产品一推出即风靡全球。 BIGO为了把这项创新技术带给全球用户,研发人员克服了各种挑战。技术挑战主要来源于三个方面:第一是人脸特征迁移技术,我们创新性地尝试把风格迁移的思路用于人脸特征迁移中,克服了当时主流的deep fake、 3D方案等技术的不足。 第二是全球化问题,因为BIGO用户来源于全球各地,为了解决不同人种的肤色、五官结构的差异问题,我们构建了千万量级的全球化的人脸数据集,极大地涵盖肤色、性别、年龄等差异性,力求把全球每一位用户的效果做到最佳 。第三是多属性,多场景的效果优化,我们在不断优化网络结构的同时尝试人脸属性、人脸姿态等约束,并大力提升大规模数据的训练效率,充分挖掘数据的多样性特征,把换脸效果做到更加鲁棒、真实、自然。FaceMagic仍在吸引越来越多人的参与,自上线以来,全球生产总量接近1亿。功能推出后

CCAI 2020 | 耿新—经典论文工作推荐

£可爱£侵袭症+ 提交于 2020-08-16 01:37:57
   CCAI 2020年8月29日-30日   2020年中国人工智能大会(Chinese Congress on Artificial Intelligence 2020,简称“CCAI 2020”)将于8月29日-30日在南京召开。CCAI 2020以“智周万物”为主题,探讨人工智能作为引领未来的战略性技术,如何以周知万物的学术境界赋能未来,带动时代发展,实现互联世界的远大理想。    东南大学计算机学院、软件学院院长、人工智能学院执行院长,国家优青,IETI Distinguished Fellow耿新将出席本次大会并担任《青年科学家专题论坛》论坛主席。    耿新 :分别于2001年和2004年在南京大学计算机科学与技术系获得学士和硕士学位,于2008年获得澳大利亚Deakin大学博士学位。创建东南大学模式学习与挖掘(PALM)实验室并担任实验室主任至今。目前主要从事机器学习、模式识别、计算机视觉等方面的研究。曾获国家级教学成果奖一等奖、教育部自然科学奖一等奖等多项教学、科研奖励,入选国际工程与技术学会(IETI)杰出会士。曾获国家优秀青年科学基金、江苏省杰出青年科学基金资助,主持国家重点研发计划课题、国家自然科学基金等多个科研项目。       01       Partial Multi-Label Learning with Label Distribution  

图文并茂,700 页的机器学习笔记火了!值得学习

Deadly 提交于 2020-08-15 23:30:45
最近在学习机器学习,看到了这份笔记,介绍的非常详细,记录一下作为学习。 作者 梁劲(Jim Liang) ,来自 SAP (全球第一大商业软件公司)。 书籍特点 条理清晰,含图像化表示更加易懂,对公式有详细的注解等。 内容概要 主要分为基本概念、常用算法和其他三部分。 为什么会这样? 首当其冲就是数学,涉及统计学、微积分、概率、线性代数等,大家虽然都学过高等数学,但如果你还记得里面的细节,算你牛。更可能的情况是,多数人都对高等数学忘记了,面对各种算法里的大量公式,感到厌恶,甚至恐惧。 其次因为机器学习本身是一个综合性学科,而且是一个快速发展的学科,知识点散乱,缺乏系统性。 市面上的机器学习/深度学习书籍、文章、教程,遍地开花,但能以清晰的方式表达、循序渐进地讲解的教程,其实不多,大量的教程没有考虑到学习者的基础,使得初学者感到挫败和困惑。 正是对机器学习的过程中的痛苦有切身体会,作者Jim Liang希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。 Part 1 介绍了基本概念,包括: 机器学习的流程 数据处理 建模 评估指标(如 MSE、ROC 曲线) 模型部署 过度拟合 正则化等 在第一部分,作者先介绍了如今应用普遍的机器学习:从自动驾驶、语音助手到机器人。其中有些思想,也是众多读者们了解过的

订单少落地难:被误解的人工智能

被刻印的时光 ゝ 提交于 2020-08-15 18:33:29
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 文 | 特约观察员 顾夏辉 安涛 编辑 | 刘子晴 人工智能落地现状 2020年人工智能依然是一个非常热的话题。中美的科技巨头以及很多跨国企业都把人工智能作为其战略发展的重要布局,国家层面也出台政策重点发展人工智能产业。2019年,中国人工智能专利申请量排行世界第一,累计申请量44万余件,中国已超过美国成为人工智能领域专利申请量最高的国家。 但是与公众关注和各方支持的力度相比,人工智能技术的落地速度并没有达到人们的预期。目前人工智能集中于新零售、智能制造、智慧农业、医疗健康、智慧城市、营销和教育等产业,超过50%的赋能实体为安防。预计到2022年,人工智能赋能实体经济仅能达1600亿。对于40万亿的市场而言,人工智能还远远没有落地。 如何才能加快人工智能的落地速度?在这个问题之前,首先要明确人工智能技术是否重要、重要到什么程度。 人工智能带给我们的是什么? 一句话,科技带给人类发展的核心是对资源的优化。 蒸汽机的出现,使机器代替了手工劳动,一部分人从重复劳动解放出来,转为管理、运营和科研工作;电力的出现,推动企业间竞争的加剧,促进生产和资本的集中,产生了垄断;互联网的出现,使得人们节省大量获得信息的资源,整合企业的管理和策略工作。 如果人类想继续进行对资源和成本优化

是选择Keras还是PyTorch开始你的深度学习之旅呢?

左心房为你撑大大i 提交于 2020-08-15 15:25:46
点击上方“ 算法猿的成长 “, 关注公众号,选择加“星标“或“置顶” 总第 135 篇文章,本文大约 7000 字,阅读大约需要 20 分钟 原文:https://medium.com/@karan_jakhar/keras-vs-pytorch-dilemma-dc434e5b5ae0 作者:Karan Jakhar 前言 上一篇 2020年计算机视觉学习指南 介绍了两种深度学习框架--Keras 和 PyTorch ,这篇文章的作者就对这两个框架进行了对比,分别通过实现一个简单的模型来对比两个不同的代码风格,最后还给出了他的个人建议。 当你决定开始学习深度学习,那么应该选择使用什么工具呢?目前有很多深度学习的框架或者库,但本文会对比两个框架,Keras 和 PyTorch ,这是两个非常好开始使用的框架,并且它们都有一个很低的学习曲线,初学者可以很快就学会它们,因此在本文,我将分享一个办法来解决如何选择其中一个框架进行使用。 最好的办法就是查看两个框架各自的代码风格 。设计任何方案的前提和最重要的事情就是你的工具,当你开始一个项目前必须安装配置好你的工具,并且一旦开始项目后,就不应该更改时用的工具。它会影响到你的生产力。作为一个初学者,你应该尽量尝试不同的工具,并且找到合适你的,但如果你正在参加一个非常正式的项目工作,那么这些事情都应该提早计划好。 每天都会有新的框架和工具面世

SpringBoot使用OpenCV总结

旧城冷巷雨未停 提交于 2020-08-15 13:27:48
前言 最近有个项目需要对图片图像进行处理,使用到了开源框架OpenCV全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库;而现在的项目都是基于SpringBoot,需要把OpenCv整合进去,下面把在使用中遇到的问题进行一个汇总整理。 下载安装 Opencv官网提供了一个多个平台的版本包括:Windows,IOS,Android,地址如下: https://opencv.org/releases/ ;因为开发在Windows平台,发布在Linux平台,所以我们这里至少需要两个版本; windows平台 直接可以在官网下载 opencv-3.4.10-vc14_vc15.exe 安装即可,安装完会出现opencv文件夹在buildjava目录下有我们需要的opencv-3410.jar,x64/opencv_java3410.dll,x86/opencv_java3410.dll文件; Linux平台 Linux平台需要我们手动编译,下载 opencv-3.4.10.zip ,解压到/user/local目录下,然后编译安装,执行如下命令: cd /usr/local/opencv-3.4.10 mkdir build cd build cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE

字节跳动副总裁、AI Lab负责人马维英宣布离职,加入清华大学

假如想象 提交于 2020-08-15 06:23:26
  机器之心报道    参与:泽南、张倩   科技公司 AI Lab 大潮正在褪去?   据多方消息确认,字节跳动副总裁、人工智能实验室主任马维英已宣布即将离职。他将赴清华大学智能产业研究院任职,加入正在筹备该产业院的原百度总裁张亚勤团队。   对此,字节跳动方面回复机器之心说:「根据自己的兴趣,马维英选择到清华大学从事人才培养和科研相关工作,他同时还会继续担任字节跳动技术顾问。」      马维英曾在世界级会议和学报上发表过数百篇论文,拥有一百多项技术专利,2010 年被评选为 ACM 杰出会员(ACM Distinguished Member),2011 年入选 IEEE Fellow。      在 Guide2Research 发布的 2020 全球顶尖计算机科学家排名中,马维英位居中国大陆第二位,仅次于源码资本投资合伙人张宏江。      AI 工程化难题是一个讨论已久的问题,包括场景碎片化、应用成本高、稳定性差、可解释性差等。有人认为,这些原因加速了 AI 顶级研究者从业界到学界的回流。    被张一鸣「杀鸡用牛刀」触动,加盟字节跳动   马维英 1990 年毕业于台湾国立清华大学电气工程系,1994 年和 1997 年分别获美国加州大学圣芭芭拉分校(UCSB)电气和计算机工程系硕士和博士学位。攻读博士学位期间,马维英负责开发的互联网图像检索系统 Netra

投稿、接收双Double,史上最火ECCV你中了么?

社会主义新天地 提交于 2020-08-14 20:56:09
     作者 | 蒋宝尚   编辑 | 丛 末   经历了程序主席一度失联,线上线下两难抉择的ECCV 2020终于迎来了放榜。据官方邮件介绍,这届会议 共收到5025份有效投稿,共接收1361篇,录取率为27% 。   1361篇稿件里面,还有104篇oral 以及161篇 Spotlight,分别占比2%和5%。   另外,在邮件中组委会还明确了ECCV线上举行的消息:由于新冠病毒的大流行,我们不得不采取线上举办的形式,但是和线下举办类似,我们依然将论文分为了三部分:oral、spotlight以及实体会议论文海报展示。    1    经历程序主席集体失联的ECCV   ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议之一,另外两个是 ICCV 和 CVPR 。每年的录取率稳都在20%以上。   这次相比ECCV 2018年 776 篇的录用数量,ECCV2020的录用数量多了一倍。投稿数量对比2018年的2439篇,今年的5025篇有效投稿也多了接近一倍。所以相比 ECCV 2018,今年不管投稿论文,还是录用论文,数量呈显著增长趋势。   不过,对比ECCV 2018 的录用比31%,2020年的录取率还是保守了点。   除了录取率比较保守,ECCV 2020