深度学习

28篇论文、6大主题带你一览CVPR2020研究趋势

那年仲夏 提交于 2020-08-14 01:08:16
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

毕设日志(3.14)——SAR检测数据集问题

旧时模样 提交于 2020-08-14 01:01:03
做基于深度学习的目标检测问题需要数据集,网上的代码大多数是针对PASCAL VOC以及COCO数据集检测的,然而让我头大的是很难找到针对目标检测的SAR图像数据集。 导师一开始让我了解OpenSARship数据集,该数据集的文件结构如 该数据集并没有打回归框标签,更加适合做分类任务而做目标检测任务则需要自己制作类似VOC和COCO数据集。于是在很多博客上看了制作VOC和COCO数据集的方法。 在知乎文章《用于深度学习SAR图像舰船目标检测的数据集SSDD和SSDD+》中(文章链接https://zhuanlan.zhihu.com/p/58404659),了解到SSDD数据集正是满足需求的现成做SAR目标检测的数据集,并从该作者的另一篇文章《SAR图像舰船目标检测-我们应该做些什么》(文章链接https://zhuanlan.zhihu.com/p/104260766)介绍了其它可用于SAR目标检测的数据集 SAR-Ship-Dataset AIR-SARShip-1.0 ISSID 幸运的是,学长给了我这些数据集的压缩包。 数据集的获取算是初步搞定啦! 来源: oschina 链接: https://my.oschina.net/u/4304002/blog/4300155

标注样本少怎么办?「文本增强+半监督」方法总结

喜你入骨 提交于 2020-08-14 00:03:58
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无增强监督学习模型,性能有较大幅度的提升; 在少样本场景下,能够达到或者逼近充分样本下的监督学习模型性能; 在充分样本场景下,性能仍然有一定提升; 基于此,本文首先总结了nlp中的文本增强技术,然后串讲了近年来9个主流的半监督学习模型,最后重点介绍了来自Google提出的UDA(一种文本增强+半监督学习的结合体)。本文的组织结构为: 1、NLP中的文本增强技术总结 谈起文本增强技术,相信NLPer一定不会陌生,相关方法也是数不胜数。我们通常对标注数据集提供附加的感应偏置进行扩充,如何设计增强变换就变得至关重要。本文尝试从一个新角度——是否条件增强,借鉴文献[1]进行了总结归纳: 1.1 无条件增强 定义:既可以对标注数据进行增强(增强后标签不发生变化),又可以针对无标注数据进行增强,不需要强制引入标签信息。 词汇&短语替换 基于词典 :主要从文本中选择词汇或短语进行同义词替换,词典可以采取 WordNet 或哈工大词林等。著名的 EDA

Pytorch深度学习实战教程(二):UNet语义分割网络

时光怂恿深爱的人放手 提交于 2020-08-13 23:06:12
本文 GitHub Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善。 一、前言 本文属于Pytorch深度学习语义分割系列教程。 该系列文章的内容有: Pytorch的基本使用 语义分割算法讲解 如果不了解语义分割原理以及开发环境的搭建,请看该系列教程的上一篇文章《 Pytorch深度学习实战教程(一):语义分割基础与环境搭建 》。 本文的开发环境采用上一篇文章搭建好的Windows环境,环境情况如下: 开发环境:Windows 开发语言:Python3.7.4 框架版本:Pytorch1.3.0 CUDA:10.2 cuDNN:7.6.0 本文主要讲解 UNet网络结构 ,以及 相应代码的代码编写 。 PS:文中出现的所有代码,均可在我的github上下载,欢迎Follow、Star: 点击查看 二、UNet网络结构 在语义分割领域,基于深度学习的语义分割算法开山之作是FCN(Fully Convolutional Networks for Semantic Segmentation),而UNet是遵循FCN的原理,并进行了相应的改进,使其适应小样本的简单分割问题。 UNet论文地址: 点击查看 研究一个深度学习算法,可以先看网络结构,看懂网络结构后,再Loss计算方法、训练方法等

达芬奇机器人变身‘模仿达人’,通过看视频模仿手术缝合、穿针、打结等动作...

核能气质少年 提交于 2020-08-13 19:48:27
点击 上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 模仿是最原始的学习方法,也是实现人工智能的基石。 通过深度学习和算法,机器人也可以通过看视频学会各种各样的技能。 先看个图: 是不是觉得有点眼熟。 没错,它就是技艺高超,被大家所熟知的达芬奇机器人。 这次它又被赋予了新功能:通过观看教学视频,学会外科手术中的相关任务。比如缝合,穿针,以及打结等动作。 让达芬奇机器人变成‘模仿艺人’的关键,是一个叫做Motion2Vec的半监督式学习算法,近日由谷歌大脑,英特尔公司和加利福尼亚大学伯克利分校合作开发。 起初,加州大学伯克利分校的教授曾使用YouTube视频作为机器人学习各种动作(例如跳跃或跳舞)的指南。机器人模仿视频中的动作,成功学习了20多种杂技,比如侧空翻、单手翻、后空翻等高难度动作。 谷歌此前也有过相关研究,例如使用视频来教授四足机器人学习狗狗的灵活动作。 这些经历促成了他们彼此的合作,他们将这些知识应用于最新项目Motion2Vec中,在这个过程中,使用了实际手术过程的视频进行指导和训练。 在最近发布的论文中,研究人员概述了他们如何使用 YouTube视频训练两臂的达芬奇机器人在织布机上插入针头并进行缝合。 人类在看视频的时候可以迅速理解内容,但机器人目前无法做到这一点,它们只是将其视为像素流。因此,要以机器人的方式让他们理解并学习——弄清并分析这些像素

资源论文非系统论文,NLP圈同行评审存在的六大固化误区!

Deadly 提交于 2020-08-13 19:18:58
      编译 | 王雪佩    编辑 | 丛 末   NLP中的大多数成功案例都是关于监督学习或半监督学习的。从根本上说,这意味着我们的解析器、情感分类器、QA系统和其他一切都和训练数据一样好。基于这一事实,数据和模型工程,对于 NLP 进一步的发展来说同样重要。这就是为什么顶级会议 ACL 通常还专设了一个“资源和评估”通道,并颁发最佳资源论文奖。   然而,创建模型和资源这两项任务所需要的技能集并不相同,往往也来自不同的领域,这两个领域的研究者往往也对“论文应该是怎样的”抱有不同的期望。这就使得审稿人的工作进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的原因可能并非论文实际存在任何缺陷,而是它的基本方法论“不合适”。   对于这一点比较失望的作者们在线上或线下展开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就“论文应该是怎么样的”达成一致,那么提交论文就是浪费彼此的时间。作者希望,本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。    1    同行评审对资源论文的六大误区   让我们从消除一些关于资源论文的误区开始。 注:下面所有引用都来自ACL审稿人对论文的真实评论!    误区1:资源论文不是科学  

腾讯优图开源深度学习推理框架TNN,助力AI开发降本增效

情到浓时终转凉″ 提交于 2020-08-13 18:46:32
从学界到工业界, “ 开源 ” 已经成为AI领域的一个关键词。一方面,它以 “ 授人以渔 ” 的方式为AI构建了一个开放共进的生态环境,帮助行业加速AI应用落地;另一方面,在解决行业实际问题时持续更新和迭代,源源不断地给AI领域输送重要的技术养料和创造力,可以说开源是AI落地和繁荣不可或缺的源动力。 6月1 0 日,腾讯优图实验室宣布正式开源新一代移动端深度学习推理框架 TNN ,通过底层技术优化实现在多个不同平台的轻量部署落地,性能优异、简单易用。基于TNN,开发者能够轻松将深度学习算法移植到手机端高效的执行,开发出人工智能 APP,真正将 AI 带到指尖。 轻量级部署,TNN助力深度学习提速增效 深度学习对算力的巨大需求一直制约着其更广泛的落地,尤其是在移动端,由于手机处理器性能弱、算力无法多机拓展、运算耗时长等因素常常导致发热和高功耗,直接影响到app等应用的用户体验。腾讯优图基于自身在深度学习方面的技术积累,并借鉴业内主流框架优点,推出了针对手机端的高性能、轻量级移动端推理框架TNN。 TNN在设计之初便将移动端高性能融入核心理念,对2017年开源的ncnn框架进行了重构升级。通过GPU深度调优、ARM SIMD深入汇编指令调优、低精度计算等技术手段,在性能上取得了进一步提升。以下是M NN, ncnn, TNN 框架在多款主流平台的实测性能: TNN 在麒麟9 70

一文了解NLP中的数据增强方法

别等时光非礼了梦想. 提交于 2020-08-13 18:46:06
最近研究了一阵文本数据增强的方法,看到国外有一个小哥写了一篇很不错的博客来总结 NLP 领域数据增强的方法,读完感觉收益颇多,所以周末花了一上午时间翻译了一下全文。 原文地址: A Visual Survey of Data Augmentation in NLP 翻译:简枫(转载请私信或邮件) 数据增强技术在计算机视觉中应用的比较广泛,但是在 NLP 中却很少能得到有效的应用。本质原因在于图像中的一些数据增强方法,比如将图像旋转几度或将其色度转换为灰度,在增强数据的同时并不会改变图像本身的含义。这种特性使得数据增强成为计算机视觉研究中的一种重要工具。 不同于 CV,NLP 中想要做数据增强,明显困难很多 我对是否有人尝试去开发 NLP 相关的数据增强技术很感兴趣,所以找时间研究了一下现有的文献。在这篇文章中,我会努力去概述当前用于文本数据增强的方法,同时也提供对应的参考文献,供大家学习。 NLP 里面数据增强的常用方法 1. 词汇替换 这一类的工作,简单来说,就是去替换原始文本中的某一部分,而不改变句子本身的意思。 1.1 基于同义词典的替换 在这种方法中,我们从句子中随机取出一个单词,将其替换为对应的同义词。例如,我们可以使用英语的 WordNet 数据库来查找同义词,然后进行替换。 WordNet 是一个人工维护的数据库,其中包含单词之间的关系。 使用 WordNet

斩获全球自动驾驶榜单第一!MIT曝光3D深度学习新成果,这类特斯拉驾驶隐患有望攻克

大兔子大兔子 提交于 2020-08-13 18:19:17
  “看来新鲜事物还是得有个过程,真不是闹着玩的。”   山东车主祁先生所说的 “新鲜事物”,正是他的爱车——特斯拉 Model S 100D。   据大众报业 · 齐鲁壹点报道,5 月 25 日,山东高速交警接到报警,祁先生的特斯拉轿车,与路面提示牌发生碰撞。   他说当时正在使用自动驾驶辅助模式,面对前方障碍物,车辆并未做出提醒。事后联系售后客服,得到的答复却是:“ 即使开启自动驾驶(辅助)模式,驾驶员也要全神贯注,不能完全相信该模式。 ”      图 | 祁先生的特斯拉出现轻微事故   无独有偶,6 月 1 日,台湾一辆特斯拉 Model 3 撞向货车,给本已发生侧翻的货车带来二次事故,两辆车均受到不同程度损伤。      图 | 撞向货车的特斯拉   据当事特斯拉司机黄某回忆称,当时他正在使用自动驾驶辅助功能,时速 110 公里左右,当看到侧翻货车、并进行刹车时,已经无济于事。      图 | 撞向货车后的特斯拉   近年来,车主在使用该功能时,已经引发多起事故。2016 年,美国海军海豹突击队前队员乔舒亚 · 布朗(Joshua Brown)的 Model S,因使用该模式撞上一辆卡车,最终不幸丧生。      图 | 乔舒亚 · 布朗生前照片   让人唏嘘的是,出事之前他曾在 YouTube 发布过自动驾驶如何避免撞车的视频,该视频还被特斯拉 CEO 马斯克转发

还原时代原声,AI修复老北京再次火爆全网

☆樱花仙子☆ 提交于 2020-08-13 16:56:48
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 凭借AI修复老北京影像火爆B站的Up主大谷兄,今天又来带我们玩穿越了! 这次是1929年的老北京,除了AI上色、补帧、扩大分辨率外,还百分百还原了时代原声,老北京的味儿太足了! 人头攒动,熙熙攘攘,有赚吆喝的、看热闹的、闲聊的,老北京集市好不热闹。 大鼓、笛子、四胡、三弦,手艺人的一曲《打新春》,有内味了。 盲人"爵士"乐队 原来理发最低不是5块,还有2块的! 听他们聊天,网友表示想看相声了。 师傅:疼不疼? 小伙:不疼。我还不哭呢外带着。 小伙:这个头好,剃得不疼,剃不好,真疼,剃好了咱还找你去。 师傅:唉 ...... 如果精神小伙穿越到现在,会不会是一位优秀的Up主? 精神小伙理发记 溢出屏幕的开心劲儿,看来发型很满意。在我们这年代都不用理,用不了几年就能天然形成[傲娇] 吃饭还能这么热闹吗?我们现在都是隔着两米! 惊现“地摊经济” 3min的珍贵影像资料,可谓真真切切地感受了老北京九十年前的生活状态。虽然看起来物质生活不是很富裕,但隔着屏幕都是感受到那时候人们的欢乐。准确的来说,这段影像记录的是1927-1929年的老北京,出自南卡罗莱纳大学影像库馆藏胶片。 另外,这段影像修复视频依然出自B站Up主大谷之手,此前他曾用AI修复过1920-1927年的一段老北京影像,在B站爆火,视频点击量超过了200万