神经网络

转:图像分类、物体检测、物体分割、实例分割、语义分割

被刻印的时光 ゝ 提交于 2020-11-27 03:51:51
0001,常识1 计算机视觉的任务很多,有图像分类、目标检测、语义分割、实例分割和全景分割等,那它们的区别是什么呢? 1、Image Classification(图像分类) 图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片输出图片里含有哪些分类,比如下图的例子是含有person、sheep和dog三种。 2、Object detection(目标检测) 目标检测(上图右)简单来说就是图片里面有什么?分别在哪里?(把它们用矩形框框住) 目前常用的目标检测算法有Faster R-CNN和基于YOLO的目标检测的算法 3、semantic segmentation(语义分割) 通常意义上的目标分割指的就是语义分割 语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。 4、Instance segmentation(实例分割) 实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3...)

算法岗面试整理 | 腾讯、字节、美团、阿里

旧街凉风 提交于 2020-11-26 15:05:08
作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系小编处理。 面试锦囊之面经分享系列,持续更新中 欢迎后台回复" 面试 "加入讨论组交流噢 文 末 也有内推,需要的同学自取哈 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?)

算法岗面试整理 | 腾讯、字节、美团、阿里

南楼画角 提交于 2020-11-26 14:46:54
(给 机器学习算法与Python实战 加星标,提升AI技能) 文末赠书福利 作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?) 一面 一个很年轻的小哥哥,人也很好

面试了8家公司,他们问了我这些机器学习题目......

淺唱寂寞╮ 提交于 2020-11-26 13:57:02
翻译 | 王柯凝 出品|人工智能头条(公众号ID: AI_Thinker ) 【 导读 】 今年年初以来,作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息,因而撰写了此文。希望你读后能够有所收获! 首先自我介绍一下: 我在机器学习(语音分析、文本分析和图像分析领域应用)领域有4年以上的从业经验。总的来说,我认为这个领域的大多数工作职位主要包括文本分析(自然语言处理)和图像分析(计算机视觉)。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位,可以带领一个深度学习或机器学习团队做一些有趣的项目。 下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。 ▌ 公司一:基于全球性服务的某公司(面试时长:20-25min) 你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类? 假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。 你如何阅读扫描版pdf文件或图像格式的书面文件的内容? 朴素贝叶斯为什么被称为“朴素”? 请详细介绍一下朴素贝叶斯分类器。 什么是深度学习

【强化学习】马尔科夫决策过程之Bellman Equation(贝尔曼方程)

拥有回忆 提交于 2020-11-26 13:54:28
前面总结了马尔科夫决策过程之Markov Processes(马尔科夫过程),见下文:马尔科夫决策过程之Markov Processes(马尔科夫过程) 马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程),见下文:马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程) 本文总结一下马尔科夫决策过程之Bellman Equation(贝尔曼方程) 1Bellman Equation for MRPs 首先我们从value function的角度进行理解,value function可以分为两部分: 见下面的推导公式: 我们直接从第一行到最后一行是比较好理解的,因为从状态s到状态s+1,是不确定,还是之前的例子。 比如掷骰子游戏,当前点数是1的情况下,下一个状态有可能是1,2,3,4,5,6的任意一种状态可能,所以最外层会有一个期望符号。 如果我们跟着一直推下来的话:有疑问的会在导出最后一行时,将G(t+1)变成了v(St+1)。其理由是收获的期望等于收获的期望的期望。参考叶强童鞋的理解。 则最后我们得到了针对MRP的Bellman方程: 通过方程可以看出v(s)由两部分组成,一是该状态的即时奖励期望,即时奖励期望等于即时奖励,因为根据即时奖励的定义,它与下一个状态无关。 这里解释一下为什么会有期望符合

热门的模型跨界,Transformer、GPT做CV任务一文大盘点

那年仲夏 提交于 2020-11-26 13:45:09
作者|陈萍 来源|机器之心 可能大家心里都有一种错误认知,做自然语言处理任务的模型不能够用来进行计算机视觉任务。其实不然,现阶段已出现好多研究,它们通过算法的改进,将在 NLP 领域表现良好的模型,如 Transformer、GPT 等进行改进并应用于视觉任务,不仅实现了模型跨界,而且取得了不错的性能。 模型跨界效果如何呢? 人工智能的快速发展已经淋漓尽致地体现在我们的日常生活中,从人脸识别、语音识别到机器翻译等等,无不展示着 AI 带来的便利。已经落地的产品层出不穷,其后的算法模型你又了解多少呢?有些模型不仅在自己的领域表现出色,更能跨界出圈。 近几年,NLP 领域的算法势如破竹,不断取得新突破,CV 领域同样不断取得创新。新工具、新算法、新算力等不断迭代更新,在各自领域大放异彩。 如果说将 NLP 领域的模型应用到 CV 领域,或反之,那效果该如何呢?模型跨界是否可行? 答案是肯定的。下面我们来盘点一下模型的跨界、破界表现如何?本文介绍的内容包括: 《End-to-End Object Detection with Transformers》:Facebook 将 Transformer 应用于目标检测任务; 《Generative Pretraining from Pixels》:OpenAI 用 GPT-2 做图像分类的尝试; 《LAMBDANETWORKS:

机器学习知识框架

蹲街弑〆低调 提交于 2020-11-26 13:44:34
参数 参数分为两种:可学习得到的参数,和超参数。 机器学习可以归结为学习一个映射函数f : x → y,将输入变量 x映射为输出变量y。一般我们可以假设映射函数为y = f(x, θ)。其中θ 即为函 数的参数。参数可以通过学习算法进行学习。 除了可学习的参数之外,还有一类参数是用来定义模型结构或训练策略的, 这类参数叫做超参数(Hyper-Parameter)。超参数和可学习的参数不同,通常是按照人的经验设定,或者通过网格搜索(Grid Search)对一组超参数组合进行不断试错调整。 常见的超参数:聚类算法中的类别个数、梯度下降法的步长、正则项的系数、神经网络的层数、支持向量机中的核函数等。 特征学习 特征学习分成两种:特征选择和特征抽取。 特征选择(Feature Selection) 是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。 最暴力的做法是测试每个特征子集,看机器学习模型哪个 子集上的准确率最高,但这种方式效率太低。常用的方法是采样贪心的策略,由空集合开始,每一轮添加该轮最优的特征;或者从原始特征集合开始,每次删 除最无用的特征。 特征抽取(Feature Extraction)是构造一个新的特征空间,并将原始特征 投影在新的空间中。以线性投影为例,原始特征向量x ∈ R d

基于深度学习的图像边缘和轮廓提取方法介绍

扶醉桌前 提交于 2020-11-26 09:05:39
点击上方 “ 小白学视觉 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 作者:黄浴 奇点汽车 首席科学家 整理:Hoh Xil 来源: https://zhuanlan.zhihu.com/p/78051407 导读: 边缘和轮廓的提取是一个非常棘手的工作,细节也许就会被过强的图像线条掩盖,纹理(texture)本身就是一种很弱的边缘分布模式,分级(hierarchical)表示是常用的方法,俗称尺度空间(scale space)。以前做移动端的视觉平台,有时候不得不把一些图像处理功能关掉,原因是造成了特征畸变。现在 CNN 模型这种天然的特征描述机制,给图像预处理提供了不错的工具,它能将图像处理和视觉预处理合二为一。 ——边缘提取—— 1. HED 整体嵌套边缘检测( Holistically-Nested Edge Detection,HED 是一个深度学习的边缘提取的算法,两个特色:(1)整体图像训练和预测; (2)多尺度、多层特征学习。该深度模型利用全卷积网络,自动学习丰富的分层表示(基于侧面响应的深层监督指导)。 多尺度深度学习可分为四类,即多流学习(multi-stream)、跳网(skip-net learning)学习、多输入单模型以及独立网训练,如图所示:(a)多流架构; (b)跳网架构; (c)多尺度输入的单一模型; (d)不同网络独立训练; (e

Python.SVM(三)核方法

拜拜、爱过 提交于 2020-11-25 14:01:43
Python.SVM(三)核方法 1 什么是核方法 往简单里说,核方法是将一个低维的线性不可分的数据映射到一个高维的空间、并期望映射后的数据在高维空间里是线性可分的。 我们以异或数据集为例:在二维空间中、异或数据集是线性不可分的;但是通过将其映射到三维空间、我们可以非常简单地让其在三维空间中变得线性可分。 比如定义映射: 该映射的效果如下图所示: 可以看到,虽然左图的数据集线性不可分、但显然右图的数据集是线性可分的,这就是核工作原理的一个不太严谨但仍然合理的解释 从直观上来说,确实容易想象、同一份数据在越高维的空间中越有可能线性可分,但从理论上是否确实如此呢? 1965 年提出的 Cover 定理从理论上解决了这个问题,我们会在文末附上相应的公式,这里暂时按下不表 至此,似乎问题就转化为了如何寻找合适的映射、使得数据集在被它映射到高维空间后变得线性可分。 不过可以想象的是,现实任务中的数据集要比上文我们拿来举例的异或数据集要复杂得多、直接构造一个恰当的的难度甚至可能高于解决问题本身。 而核方法的巧妙之处就在于,它能将构造映射 这个过程再次进行转化、从而使得问题变得简易:它通过核函数来避免显式定义映射往简单里说,核方法会通过用能够表示成 的核函数 替换各算式中出现的内积 来完成将数据从低维映射到高维的过程。 换句话说、核方法的思想如下: 将算法表述成样本点内积的组合

机器直觉

烂漫一生 提交于 2020-11-25 10:53:21
来源:专知 当前以深度学习代表的人工智能技术所能解决的问题往往需要具有大量可以借鉴学习的训练 集, 同时要求所获取的信息是完备的. 但在复杂时变的真实应用环境中, 采集到的数据往往包含大量 噪声与不确定性, 且仅包含环境的局部信息, 导致了基于深度学习的人工智能应用的局限性. 而在同 样环境下, 人类却往往可以依靠直觉做出较为迅速且适宜的判断, 这为我们发展新的人工智能理论解 决上述问题提供了灵感. 本文系统地对人类直觉的概念、机理、类别等内容进行论述, 分析了不同学 科已有相关研究进展及存在的不足. 在此基础上, 提出了机器直觉这一新的交叉学科研究方向, 并给 出了实现机器直觉的基本准则, 以及通过让机器实现类似甚至超过人类的直觉能力、赋予机器洞察力 与创造性的研究目标. 本文尝试设计了机器直觉的通用整体架构, 确定了全息感知、直觉认知、直觉决 策和博弈行动几个主要功能模块的基本原理和内涵. 最后, 从脑科学、认知科学、人工智能等多学科 交叉研究角度, 对机器直觉的应用与未来研究方向进行了展望, 为后续展开机器直觉的研究提供方向 性指引. 引言: 自 20 世纪 50 年代人工智能的概念提出后, 不同类型的人工智能技术先后被提出, 呈现出百花 齐放、百家争鸣的研究盛况. 基于对智能的不同角度的理解, 目前形成了联结主义、符号主义以及行为主义等 3 大主要流派 [1] .