深度学习

基于深度学习的小目标检测算法文献综述阅读

╄→尐↘猪︶ㄣ 提交于 2020-10-30 17:02:04
基于深度学习的小目标检测算法文献综述阅读 目标检测简要介绍 传统目标检测 基于深度学习的目标检测 基于候选区域的目标检测 基于回归的目标检测 小目标检测背景介绍及难点 小目标检测算法介绍 多尺度预测 反卷积和上采样 对抗网络GAN 总结与展望 最近做了一个对于小目标检测算法的文献的阅读,在搜查文献的时候,了解了目标检测的发展过程以及其中比较典型的算法,以下根据汇报的PPT从四个方法介绍小目标检测算法文献综述,分别是: 目标检测的简要介绍、小目标检测背景介绍及难点、小目标检测算法介绍、总结与展望 ,此篇博客也可作为汇报的讲稿。 目标检测简要介绍 目标检测过程简单的可以分为两个过程:定位和识别,定位是对于某一个目标位于哪一个位置而言,识别是指所定位的目标是什么,是一个分类问题。目标检测的发展也可以分为两个过程,其一是传统的目标检测,另一个是基于深度学习的目标检测。 传统目标检测 传统目标检测可以分为三个过程:获取检测窗口、手工设计感兴趣目标的特征、训练分类器。 1998年Papageorgiou发表一篇关于A general framework for object detection,提出Harr分类器,这是一个用于检测人脸的目标检测分类器,计算获取的每个检测窗口的像素总和,然后取它们的差值,利用差值作为特征进行目标分类,该方法的优点是速度快。2004年,David

三月份送书活动来了

こ雲淡風輕ζ 提交于 2020-10-30 09:59:08
程序IT圈 学习编程技术,关注这个公众号足够了 长期关注过公众号『 程序IT圈 』都知道,我们公众号每个月都会举行一次读者福利送书活动 ,转眼又过去了一个月了。 阳春三月,为了感谢各位读者对于我的公众号长期关注,我决定在今天给大家举办个读者送书福利,本次赠送图书共5本。 本次书籍由 博文视点出版社 倾情赞助,我代表公众号上的所有读者感谢 杨中兴老师和博文视点 愿意提供书籍。同时也希望大家能够长期关注公众号『 程序IT圈 』,每个月至少一次给读者带来送书福利! 下面来介绍一下本次送书活动的主角:《 深度学习核心技术与实践 》。 该书主要介绍深度学习的核心算法,以及在计算机视觉、语音识别、自然语言处理中的相关应用。《深度学习核心技术与实践》的作者们都是业界一线的深度学习从业者,所以书中所写内容和业界联系紧密,所涵盖的深度学习相关知识点比较全面。《深度学习核心技术与实践》主要讲解原理,较少贴代码。 《深度学习核心技术与实践》适合深度学习从业人士或者相关研究生作为参考资料,也可以作为入门教程来大致了解深度学习的相关前沿技术。 编辑推荐 √ 来自一直盛产人工智能黑科技的神秘之师,他们也是开源分布式系统ytk-learn和ytk-mp4j的作者。 √ 用一线工程视角,透过关键概念、模型、算法原理和实践经验,为入坑者破解深度学习“炼金术”。 √ 算法、代码容易获取

汇总|3D目标检测文章(CVPR2020)

落花浮王杯 提交于 2020-10-30 05:39:23
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 前言 今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。 1. CVPR20 室内目标检测文章 ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes

SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿标准

江枫思渺然 提交于 2020-10-29 17:24:09
选自 evjang.com 作者:Eric Jang 机器之心编译 编辑:Panda 数据集过于简单、只在一两项指标上达到 SOTA、没有充分说明之前的研究都可能成为你论文被拒的原因。 会议论文评审已经成为了人工智能和机器学习领域的热门争议话题,既有审稿人在线吐槽论文注水严重,半成品太多,也有投稿人网上喊冤,质疑审稿人的资格和敬业程度。 纷纷扰扰之中,也许一个重要的原因是论文评审缺乏明晰的标准,严重依赖审稿人的主观判断。 近日,谷歌 Robotics 研究科学家 Eric Jang 基于他十多场会议和研讨会的审稿经验,罗列了审稿人在评审论文时可能会考虑的标准,然后他说明了自己个人的审稿标准。 这虽然只是一位审稿人的个人看法,但如果审稿人都能公开说明自己的审稿标准,当前会议论文评审方面的争议之声大概也会小一些。 审稿人到底会考虑哪些标准? NeurIPS 2020 已经公布了论文的收拒情况:在收到的 9454 篇论文中,有 1900 篇被接收(接收率为 20%)。接收详情请参阅《NeurIPS 2020 放榜,接收率史上最低!AC:低接收率带不来有趣的论文》。不管接收结果如何,都要祝贺各位辛苦研究取得了成果。 机器学习研究者大概都知道,NeurIPS 和其它一些会议的接收决定就像是一种经过加权的掷骰子游戏。在这个被称为「学术出版」的剧场中,评议五花八门

2020.10.19-10.26 人工智能行业每周技术精华文章汇总

北慕城南 提交于 2020-10-29 14:11:41
前段时间,和一个朋友聊天。 聊最近在做的一些事情,比较有意思的是: 他说, 很多事情,刚开始想法挺多,但平时时间太少,下班就想休息休息,不想动了 。 这可能也是很多人面临的问题,很多事 想尝试 ,但是觉得 很麻烦 ,想想就行了。 长期以往,越来越焦虑,因为人生的很多道路是需要自己去 探索尝试 的。 所以会造成上周周报中提到的, 中年危机 ,因此这里大白主要聊一个名词: 自制力 。 如果没有自制力,无法从内心驱动的话,很多目标会 半途而废 。 当然, 提升自制力 ,也是有 方法论 的,每个人的方法不同,大白和大家说一下我的方法。 以复杂一点的为例,比如想做一套**“体验感比较好” 的 人工智能教程**。 那就会面临 两个 问题? 一是如何体验感好? 二是如何制作教程? 既然知道问题所在,就简单了,打开文档(大白常用的是腾讯文档)。 将每个问题的 解决思路 再细化,当然更加专业是利用5W2H的方式,这里不多说,感兴趣的话,可以自行百度。 一、如何体验感好? (1)搜集市面上所有的人工智能教程,文字版及视频版,进行体验。 (2)阅读每个教程中的评论,查看哪里可以改进。 二、如何制作教程? (1)如何录制一个视频?比如硬件、软件等。 (2)如何保证录制的声音好?是否要购买耳麦? (3)使用什么软件录制视频? (4)使用什么工具剪辑视频? 当进行第二次细化后,思路更清晰了,你的脑海中也有了

PyTorch_构建一个LSTM网络单元

喜夏-厌秋 提交于 2020-10-29 10:35:32
今天用PyTorch参考《Python深度学习基于PyTorch》搭建了一个LSTM网络单元,在这里做一下笔记。 1.LSTM的原理 LSTM是RNN(循环神经网络)的变体,全名为长短期记忆网络(Long Short Term Memory networks)。 它的精髓在于引入了细胞状态这样一个概念,不同于RNN只考虑最近的状态,LSTM的细胞状态会决定哪些状态应该被留下来,哪些状态应该被遗忘。 具体与RNN的区别可参考这篇博文: LSTM与RNN的比较 先放一张LSTM网络的模型图: 如上图所示,可以看到这是一个网络,我们单拿出其中一个单元来进行分析,可见每一个单元都包含一系列运算,那么这些运算的意义是什么呢?下面我们来一一解释每个单元的具体内容。 (1)遗忘门 ht-1 :前一个时刻的Cell的输出 xt : 当前时刻的输入 注意:中括号的意思是将ht-1与xt拼接起来,后面出现公式同理 遗忘门主要来判断上一状态中的输出对现状态的影响大小,遗忘门的输出要通过一个Sigmoid函数,Sigmoid函数的输出范围是0~1,相当于得到一个权重,后面与Ct-1相乘,以此得到上一状态输出对现状态的影响。 (2)输入门 输入门中会得到一个临界的细胞状态(Ct^),表示此状态下的备选输出,与it作用后就得到此次状态需要输出的内容。 由以上两个门就可以输出更新后的细胞状态Ct

自动机器学习简述(AutoML)

梦想与她 提交于 2020-10-29 08:55:51
转载本文需注明出处:微信公众号EAWorld,违者必究。 目录: 一、为什么需要自动机器学习 二、超参数优化 Hyper-parameter Optimization 三、元学习 Meta Learning 四、神经网络架构搜索 Neural Architecture Search 五、自动化特征工程 六、其它自动机器学习工具集 一、为什么需要自动机器学习 对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响。随着深度学习的流行,工程师需要选择相应的神经网络架构,训练过程,正则化方法,超参数等等,所有的这些都对算法的性能有很大的影响。于是深度学习工程师也被戏称为调参工程师。 自动机器学习(AutoML)的目标就是使用自动化的数据驱动方式来做出上述的决策。用户只要提供数据,自动机器学习系统自动的决定最佳的方案。领域专家不再需要苦恼于学习各种机器学习的算法。 自动机器学习不光包括大家熟知的算法选择,超参数优化,和神经网络架构搜索,还覆盖机器学习工作流的每一步: 自动准备数据 自动特征选择 自动选择算法 超参数优化 自动流水线/工作流构建 神经网络架构搜索 自动模型选择和集成学习 二、超参数优化 Hyper-parameter Optimization 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计

IROS2020开源软硬件!多激光雷达的协同定位建图及在线外参自标定

流过昼夜 提交于 2020-10-29 07:07:51
点击 上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 本文由作者林家荣授权转载,二次转载请联系作者 https://zhuanlan.zhihu.com/p/157533731 ----多图预警!请在wifi环境下食用!---- 首先,先放我儿子镇下楼先 自从上次在知乎上分(吹)享(水)了我们的工作后, https://www.zhihu.com/question/332926945/answer/836032023 我们的工作收到了很多的关注,并陆陆续续收到了来着各位朋友的咨询邮件,截止到目前,我们的开源库 https://github.com/hku-mars/loam_livox 已经收到了517个star(感谢各位老铁)。于是乎,我们趁(划)胜(水)追(摸)击(鱼), 苟 (不敢出去,年前怕被废青干,年后怕被疫情干)在实验室里面,积(通)极(宵)开展了新的研(组)究(团)工(开)作(黑)。 而今天,我要介绍的是我们最近被IROS 2020接收的工作” A decentralized framework for simultaneous calibration, localization and mapping with multiple LiDARs”即“一个多激光雷达同时定位建图以及外参的自标定的分布式框架”。我们的工作不仅能实现多(5

【军工AI】基于图像处理与图像识别的经典探地雷达识别

白昼怎懂夜的黑 提交于 2020-10-29 01:28:27
文章目录 本课题的研究内容: 探地雷达原理 探地雷达图像预处理 图像倾斜矫正 均值法去背景原理与实现 图像分割技术 阈值分割技术的实现 腐蚀与膨胀技术 探地雷达杂波抑制研究与实现 探地雷达合成孔径成像 探地雷达目标识别 总结 本文为论文解读,为2008年发布的基于传统图像处理与识别论文,目标是探地雷达信号的识别。 本课题的研究内容: 1、讨论了各种探地雷达杂波抑制方法,数字图像的基本理论和图像倾 斜矫正方法,重点介绍了均值法去背景这种最常用的杂波抑制方法,分析 实现了图像的分割技术、滤波技术以及腐蚀与膨胀技术。从浅地层探地雷 达图像的特点出发,提出一种基于图像处理技术抑制探地雷达杂波的方 法。 2、分析了浅地层探地雷达合成孔径成像与普通雷达合成孔径成像的不 同。研究了探地雷达合成孔径成像时的一个重要参数——波速的估计问 题,使用了一种基于Hou曲变换的波速估计方法。在各种探地雷达合成 孔径成像方法中,改进了一种快速微波全息合成孔径成像方法。 3、介绍了针对B.scan的探地雷达目标识别与定位方法,在前述所提 杂波抑制的基础上运用并实现了一种有效的特征提取方法和基于模糊聚 类分析的自动识别方法,并实现了一种基于窗口划分的目标定位方法。 探地雷达原理 探地雷达(c№und Penetrating Radar简称GPR)是一种对地下或物体内不可见的目 标或界面进行定位的电磁技术

神经网络、BP算法、深度学习

老子叫甜甜 提交于 2020-10-29 00:48:51
众所周知,深度学习正逐渐获得越来越多的关注,并且毫无疑问成为机器学习领域最热门的话题。 深度学习可以被看作是一组算法的集合,这些算法能够高效地进行多层人工神经网络训练。 在本章,读者将学习人工神经网络的基本概念,并且接触到新近基于Python开发的深度学习库,从而更进一步去探索机器学习研究领域中这一最为有趣的内容。 使用人工神经网络对复杂函数建模: 我们在第2章中从人工神经元入手,开始了机器学习算法的探索。对于本章中将要讨论的多层人工神经网络来说,人工神经元是其构建的基石。 人工神经网络的基本概念是建立在对人脑如何应对复杂问题的假想和模型构建上的。 在过去的十年中,神经网络研究领域的许多重大突破成就了当前的深度学习算法,此算法可以通过无类标数据训练的深度神经网络(多层神经网络)进行特征检测。 神经网络不仅仅是学术领域的一个热门话题,连Facebook、微软及谷歌等大型科技公司都在人工神经网络和深度学习研究领域进行了大量的投入。 时至今日,由于能够解决图像和语音识别等复杂问题,由深度学习算法所驱动的复杂神经网络被认为是最前沿的研究成果。 我们日常生活中深度学习的常见例子有谷歌图片搜索和谷歌翻译,谷歌翻译作为一款智能手机应用,能够自动识别图片中的文字,并将其实时翻译为20多种语言。 当前一些主要的科技公司正在积极开发更多有趣的深度神经网络应用