计算机视觉

OpenSelfSup: Open-MMLab自监督表征学习代码库

拥有回忆 提交于 2020-11-20 07:08:27
本文转载自知乎,已获作者 授权转载。 https://zhuanlan.zhihu.com/p/148782886 前言 自监督的表征学习领域近几个月来获得了显著的突破,特别是随着Rotation Prediction, DeepCluster, MoCo, SimCLR等简单有效的方法的诞生,大有超越有监督表征学习的趋势。 然而,相信做这个领域的研究者都深有感触: 1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进; 2)评价方案不统一,不同的方法难以在公平环境下对比; 3)动辄百万千万的训练数据量,训练效率是个大问题。 针对这些问题,我们(香港中文大学多媒体实验室和南洋理工大学)开源了一套统一的自监督学习代码库:OpenSelfSup, 链接如下: https://github.com/open-mmlab/OpenSelfSup OpenSelfSup 统一的代码框架和模块化设计 OpenSelfSup使用PyTorch实现,支持基于分类、重建、聚类、memory bank、contrastive learning的多种自监督学习框架, 目前收录了Relative Location, Rotation Prediction, DeepCluster, OnlineDeepCluster, NPID, MoCo, SimCLR

人工智能培训有哪些实战项目?

旧城冷巷雨未停 提交于 2020-11-20 05:20:00
  学习人工智能除了要构建自己的基础知识框架以外,还要注重实战项目的练习,这样才能达到灵活掌握人工智能技术的目的。因此,大家在选择人工智能培训机构的时候,一定要考察培训课程中有没有实战项目。以博学谷的人工智能培训课程为例,下面一起来看看相关的实战项目内容。   实战项目一:人脸识别打卡   随着人工智能时代的到来,各大厂纷纷投入大量的人力物力进军人工智能领域。学习掌握大厂AI技术,可以使我们更快捷的实现业务场景智能化。本次人工智能培训主要介绍了百度AI的三大平台:机器学习平台、深度学习平台、人工智能平台,并对人工智能平台包含的三大主流技术:图像、语音、自然语言处理进行了深入讲解,最后以“人脸识别打卡”案例,详细讲解了项目架构设计和开发流程。学完本课程,不仅可以掌握图像、语音和自然语言处理API的使用,而且可以利用API实现具体应用的开发。   实战项目二:商品物体检测   物体检测是计算机视觉中最常见应用之一,有极为广泛的用途。本课程从目标检测算法出发,对各个算法进行了全面细致的讲解,然后讲解了数据集标记与处理的相关内容,最后以一个实战项目“商品物体检测”为例,讲解了整个项目的架构设计,以及整个项目的开发流程。学完本课程不仅可以掌握目标检测算法的原理、模型训练工具的使用,而且可以掌握利用TensorFlow Serving完成模型部署以及客户端编写能力。   实战项目三:AI游戏

目标检测论文解读之RCNN

送分小仙女□ 提交于 2020-11-19 05:22:24
前言 最近准备开始认真的梳理一下目标检测的相关算法,组合成一个目标检测算法系列。之前看到了一张特别好的目标检测算法分类的甘特图,但忘记是哪里的了,要是原始出处请提醒我标注。 我也会按照这个图来讲解目标检测算法。 背景介绍 什么是目标检测 所谓目标检测就是在一张图像中找到我们关注的目标,并确定它的类别和位置,这是计算机视觉领域最核心的问题之一。由于各类目标不同的外观,颜色,大小以及在成像时光照,遮挡等具有挑战性的问题,目标检测一直处于不断的优化和研究中。 目标检测算法分类 上面那张甘特图已经说明了目标检测算法主要分为两类,即: Two Stage目标检测算法。这类算法都是先进行区域候选框生成,就是找到一个可能包含物体的预选框,再通过卷积神经网络进行分类和回归修正,常见算法有R-CNN,SPP-Net,Fast-RCNN,Faster-RCNN和R-FCN等。 One Stage目标检测算法。这类算法不使用候选框生成,直接在网络中提取特征来预测物体的分类和位置。常见的One-Stage算法有:YOLO系列,SSD,RetinaNet。 RCNN算法 贡献 RCNN是第一个使用卷积神经网络来对目标候选框提取特征的目标检测算法。同时,RCNN使用了微调(finetune)的技术,使用大数据集上训练好的分类模型的前几层做backbone,进行更有效的特征提取。 RCNN总览 看下图: 首先

VS Code有哪些奇技淫巧?

大城市里の小女人 提交于 2020-11-18 18:22:48
不同的开发工具,都能俘获各自的一批忠实的用户和支持者。 VS Code、Eclipse、IDEA、atom....到底哪一款开发工具更好?一直存在这样一个争论。 VS Code这几年作为一款热门的开发工具,逐渐受到更多开发者的欢迎。 它之所以如此受欢迎,和它不断的创新突破是离不开的。 即便如此,还是有很多用户觉得VS Code不好用。 这一点不难理解,让一个用过工具A的同学突然迁移到工具B,哪怕它已经非常完美,但是依然可以找出非常多可挑剔的点。 这里面一是由于使用习惯造成的原因,还有就是开发者对这款新工具不够了解。 但是有一点应该很清楚,作为当下热门的开发工具,很多其他开发工具具备的优秀功能,VS Code同样支持。 为了让大家能够更加清晰的了解VS Code,今天就来给大家介绍一些它的高效用法。 集成终端 在VS Code中,能够直接打开终端。这使得,无论是调试代码,还是执行终端命令行工具,都无需切换窗口,避免一些时间的浪费。 要想使用VS Code终端,需要首先安装它。安装步骤非常简单,只需要如下几步: 启动VS Code shift+cmd+p 打开命令面板,输入 shell command 点击确认 这样,就完成了VS Code集成终端的开发。 批量重命名 名称,在开发过程中占据着至关重要的地位。函数名、类名、变量名....在编写代码过程中经常会和各种名称打交道。

保研资料分享

邮差的信 提交于 2020-11-13 13:46:52
无论是在保研还是在考研复试中,自我介绍,简历,以及如何给导师发邮箱都是很有考究,并且可能会直接决定你面试的节奏与分数。所以在这里我想给大家分享下,我在推免期间所收集到的这方面信息,以及自己总结的资料。 另外在交材料的时候,今年很多都是需要叫PDF文件,所以扫描,和文件合并拆分的小工具,就显得很重要,下面会分享一些好用的网站与软件给大家。 目录 1英语面试准备 1.1 英语自我介绍 1.2 英语问题准备 1.3资料分享 2 简历 2.1 资料分享 3 其他分享 3.1 推荐信以及个人陈述 3.2 扫描软件分享 3.3 PDF文件处理分享 3.3 保研信息获取 总结 1英语面试准备 1.1 英语自我介绍 这是我自己看来一些资料,然后结合自身情况写的,仅供参考 Good morning, Professors, I am honored to be informed of this interview today. My name is xxx,I am from xxx. I am very grateful to this university. It is this school that the place where my dream began. At the same time, I also hope that xx University can become the

平均15-16薪,汇量科技2021届秋招正式启动!

浪尽此生 提交于 2020-11-11 10:41:31
52CV内推福利 1、简历优先筛选 2、优先面试 3、优先录取 (名额有限,抓紧报名) 如何参与 扫描下方二维码,关注并留言【汇量】 获取内推机会 小助手 微信M星小助手(微信号:xiaozhong9514) 加这个微信号备注“ 学校-专业-姓名 ”可以进Mobvista21届秋招答疑群 点击“阅读全文" 一键投递简历 本文分享自微信公众号 - 我爱计算机视觉(aicvml)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4580264/blog/4530028

VR应用的5个实例:虚拟现实购物和人工智能

◇◆丶佛笑我妖孽 提交于 2020-11-11 08:26:52
https://zhuanlan.zhihu.com/p/110280607 作者 | Ayn de Jesus 编译 | CDA数据分析师 原文 | Virtual Reality Shopping and Artificial Intelligence – 5 Near-Term Applications 通过实现沉浸式虚拟现实环境,一些AI应用程序声称可以测试尚未投放市场的产品或零售创意,将它们放在虚拟货架上以研究消费者对实时商品的反应和行为。 这些公司声称,通过将眼动仪与头戴式显示器集成在一起,可以监控消费者对某些产品的凝视和行为。 根据德勤(Deloitte)的一项研究,虚拟现实和增强现实(VR / AR)市场的全球收入将从2016年的52亿美元增长到2020年的1620亿美元。这代表着2015年至2020年的年复合增长率为181.3% 。 迄今为止,全球十大技术公司中有八家已经投资了VR,包括苹果,谷歌,微软,Facebook,三星和IBM。特别是在零售业中,一些最大的连锁超市已经建立了自己的技术实验室,以探索VR和其他新技术如何为企业带来收益。其中包括Lowe的创新实验室和Walmart的8号商店。 该研究还指出了虚拟现实的以下优点: 店内互动:帮助客户在商店中导航和查找产品,在他们移动时获得商店奖励或奖励 产品定制:允许零售商和品牌在投资执行前将想法可视化

字节跳动AI Lab秋招提前批已经过半啦,还没上车的小伙伴抓紧了!

只谈情不闲聊 提交于 2020-11-10 01:45:19
1. 我们是谁? 字节跳动AI Lab,成立于2016年,致力于开发为字节跳动内容平台服务的创新技术,不仅仅是进行理论研究,我们的想法还可以通过实验证明和快速跟踪用于产品部署。 人工智能涉及的研究领域极多,我们重点关注以下领域:自然语言处理、计算机视觉、机器学习、系统&网络、计算机图形&增强现实、安全&隐私、语音与音频、数据挖掘 。公司平台的庞大用户群确保了有价值的用户数据的持续流入,这有助于我们改进现有模型,研发新的应用程序来提高用户体验。 我们拥有处于世界领先水平的研究人员,也致力于成为最聪明学生的教育中心,发挥他们无限的潜力。发表论文、发表演讲、参加会议,我们立志能够成为学术界积极的参与者。我们的科学家不是停留在封闭实验室的传统布局中,而是嵌入到整个组织,工程团队随时可以快速有效地大规模部署他们的最佳创意。 官网链接:https://ailab.bytedance.com/ 2. 福利待遇 就近住房补贴,用五环外的租房成本住在北三环城中心; 六险一金,入职即送年假7天,带薪病假高达8天,附带年度体检(仅限全职员工); 免费三餐自助,节省时间可选择盒饭,减肥健身可选择健康餐; 免费健身房和康体娱乐中心; 下午茶,零食水果、咖啡牛奶统统不限量👇 3. 投递方式 点击下方图片,长按扫描二维码。 点击阅读原文 , 直接去官网投递,记得输入我的内推码哦~ 本文分享自微信公众号 -

字节跳动AI Lab 秋季提前批招聘

徘徊边缘 提交于 2020-11-10 00:47:44
1 公司简介 字节跳动AI Lab,成立于2016年,致力于开发为字节跳动内容平台服务的创新技术,不仅仅是进行理论研究,我们的想法还可以通过实验证明和快速跟踪用于产品部署。 人工智能涉及的研究领域极多,我们重点关注以下领域:自然语言处理、计算机视觉、机器学习、系统&网络、计算机图形&增强现实、安全&隐私、语音与音频、数据挖掘 。公司平台的庞大用户群确保了有价值的用户数据的持续流入,这有助于我们改进现有模型,研发新的应用程序来提高用户体验。 我们拥有处于世界领先水平的研究人员,也致力于成为最聪明学生的教育中心,发挥他们无限的潜力。发表论文、发表演讲、参加会议,我们立志能够成为学术界积极的参与者。我们的科学家不是停留在封闭实验室的传统布局中,而是嵌入到整个组织,工程团队随时可以快速有效地大规模部署他们的最佳创意。 2 关于招聘 1. 提前批投递时间与面向对象? 简历投递: 6月16日至7月16日 面向对象: 仅针对 研发类职位 (技术序列) 2020.9—2021.8期间毕业,且最高学历毕业后无全职工作经验的学生 是否可以参与几个部门提前批: 仅能主动投递 一次 ,且只能投递 一个岗位 ;有被多次复捞的可能性,但一次只能进行一个流程, 不能同时 在多个业务笔试面试; 2. 提前批的优势? 稳: 提前批是校招的一部分,投递结果不影响秋招,相当于有两次投递机会; 快: 处理速度更快

一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

五迷三道 提交于 2020-11-10 00:27:32
作者|Stan Kriventsov 编译|Flin 来源|medium 在这篇博文中,我想在不作太多技术细节的情况下,解释其作者提交给2021 ICLR会议的新论文“一张图等于16x16个字:用于大规模图像识别的变压器”的意义(目前为止匿名)。 另一篇文章中,我提供了一个示例,该示例将这种新模型(称为Vision Transformer,视觉变压器)与PyTorch一起用于对标准MNIST数据集进行预测。 自1960年以来深度学习(机器学习利用神经网络有不止一个隐藏层)已经问世,但促使深度学习真正来到了前列的,是2012年的时候AlexNet,一个卷积网络(简单来说,一个网络,首先查找小的图案在图像的每个部分,然后尝试将它们组合成一张整体图片),由Alex Krizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。 AlexNet: https://en.wikipedia.org/wiki/AlexNet ImageNet图像分类竞赛: https://en.wikipedia.org/wiki/ImageNet 在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-100