coco | 易学教程

重磅！YOLOv4阅读笔记（附思维导图和论文译文）！

阅读更多关于重磅！YOLOv4阅读笔记（附思维导图和论文译文）！

今天刷看到了YOLOv4之时，有点激动和兴奋，等了很久的YOLOv4，你终究还是出现了论文地址： https://arxiv.org/pdf/2004.10934.pdf GitHub地址： https://github.com/AlexeyAB/darknet 觉得作者很地道，论文附上开源，没有比这更开心的事情了吧！首先附上对论文总结的思维导图，帮助大家更好的理解！下边是对论文的翻译，有些地方可能翻译的不是很准备，欢迎指正补充（思维导图和论文译文PDF均可在公众号【计算机视觉联盟】回复YOLOv4获取）摘要有很多特征可以提高卷积神经网络（CNN）的准确性。需要在大型数据集上对这些特征的组合进行实际测试，并需要对结果进行理论证明。某些特征仅在某些模型上运行，并且仅在某些问题上运行，或者仅在小型数据集上运行；而某些特征（例如批归一化和残差连接）适用于大多数模型，任务和数据集。我们假设此类通用特征包括加权残差连接（WRC），跨阶段部分连接（CSP），交叉小批量标准化（CmBN），自对抗训练（SAT）和Mish激活。我们使用以下新功能：WRC，CSP，CmBN，SAT，Mish激活，马赛克数据增强，CmBN，DropBlock正则化和CIoU丢失，并结合其中的一些特征来实现最新的结果：在MS COCO数据集上利用Tesla V10以65 FPS的实时速度获得了43.5

Pytorch深度学习实战教程（一）：语义分割基础与环境搭建

阅读更多关于 Pytorch深度学习实战教程（一）：语义分割基础与环境搭建

本文 GitHub https:// github.com/Jack-Cherish /PythonPark 已收录，有技术干活文章，整理的学习资料，一线大厂面试经验分享等，欢迎 Star 和完善。一、前言该系列文章的内容有： Pytorch的基本使用语义分割算法讲解先从最简单的语义分割基础与开发环境搭建开始讲解。二、语义分割语义分割是什么？语义分割（semantic segmentation） : 就是按照“语义”给图像上目标类别中的每一点打一个标签，使得不同种类的东西在图像上被区分开来。可以理解成像素级别的分类任务，直白点，就是对每个像素点进行分类。简而言之，我们的目标是给定一幅RGB彩色图像（高x宽x3）或一幅灰度图像（高x宽x1），输出一个分割图谱，其中包括每个像素的类别标注（高x宽x1）。具体如下图所示：注意：为了视觉上清晰，上面的预测图是一个低分辨率的图。在实际应用中，分割标注的分辨率需要与原始图像的分辨率相同。这里对图片分为五类：Person（人）、Purse（包）、Plants/Grass（植物/草）、Sidewalk（人行道）、Building/Structures（建筑物）。与标准分类值（standard categorical values）的做法相似，这里也是创建一个 one-hot编码的目标类别标注——本质上即为

Serverless 实战：用 20 行 Python 代码轻松搞定图像分类和预测

阅读更多关于 Serverless 实战：用 20 行 Python 代码轻松搞定图像分类和预测

图像分类是人工智能领域的一个热门话题，通俗来讲，就是根据各自在图像信息中反映的不同特征，把不同类别的目标区分开。图像分类利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，代替人的视觉判读。在实际生活中，我们也会遇到图像分类的应用场景，例如我们常用的通过拍照花朵来识别花朵信息，通过人脸匹对人物信息等。通常，图像识别或分类工具都是在客户端进行数据采集，在服务端进行运算获得结果。因此，一般都会有专门的 API 来实现图像识别，云厂商也会有偿提供类似的能力：华为云图像标签腾讯云图像分析本文将尝试通过一个有趣的 Python 库，快速将图像分类的功能搭建在云函数上，并且和 API 网关结合，对外提供 API 功能，实现一个 Serverless 架构的 " 图像分类 API"。入门 ImageAI 首先，我们需要一个依赖库： ImageAI 。什么是 ImageAI 呢？其官方文档是这样描述的： ImageAI 是一个 python 库，旨在使开发人员能够使用简单的几行代码构建具有包含深度学习和计算机视觉功能的应用程序和系统。 ImageAI 本着简洁的原则，支持最先进的机器学习算法，用于图像预测、自定义图像预测、物体检测、视频检测、视频对象跟踪和图像预测训练。ImageAI 目前支持使用在 ImageNet-1000 数据集上训练的 4

Visual Question Answering: Datasets, Algorithms, and Future Challenges文章翻译

阅读更多关于 Visual Question Answering: Datasets, Algorithms, and Future Challenges文章翻译

Abstract 视觉问答(VQA)是计算机视觉和自然语言处理领域的一个新问题，引起了深度学习、计算机视觉和自然语言处理领域的极大兴趣。在VQA，一种算法需要回答基于文本的图像问题。自2014年第一个VQA数据集发布以来，已经发布了更多数据集，并提出了许多算法。在这篇综述中，我们从问题表述、现有数据集、评估指标和算法等方面批判性地考察了VQA的现状。特别是，我们讨论了当前数据集在正确训练和评估VQA算法方面的局限性。然后我们详尽地回顾现有的VQA算法。最后，我们讨论了VQA和图像理解研究未来可能的方向。 1 Introduction 计算机视觉和深度学习研究的最新进展使许多计算机视觉任务取得了巨大进展，如图像分类[1，2)，物体检测[3，4]，和活动识别[5，6，7]。给定足够的数据，深度卷积神经网络可以与人类进行图像分类的能力相媲美[2]。由于众包，带注释的数据集在规模上迅速增加，类似的结果也可以预期用于其他聚焦的计算机视觉问题。然而，这些问题范围狭窄，不需要对图像的整体理解。作为人类，我们可以识别图像中的物体，理解这些物体的空间位置，推断它们的属性和彼此的关系，并且在给定周围环境的情况下推断每个物体的用途。我们可以对图像随意提问，也可以交流从图像中收集的信息。直到最近，开发一种能够回答关于图像的任意自然语言问题的计算机视觉系统一直被认为是一个雄心勃勃但棘手的目标。然而

前端性能优化之谈谈通用性能指标及上报策略

阅读更多关于前端性能优化之谈谈通用性能指标及上报策略

背景性能优化是所有前端人的追求，在这条路上，方法多种多样。这篇文章，说一下可以怎样定义性能指标及上报。指标 FP 含义 FP，全称 First Paint ，翻译为首次绘制 ,是时间线上的第一个时间点，它代表网页的第一个像素渲染到屏幕上所用时间，也就是页面在屏幕上首次发生视觉变化的时间。统计逻辑通过performance.getEntriesByType('paint’)，取第一个pain的时间。如： function getFPTime ( ) { const timings = performance.getEntriesByType( 'paint' )[ 0 ]; return timings ? Math .round(timings.startTime) : null } 复制代码 FCP 含义 FCP，全称 First Contentful Paint ，翻译为首次内容绘制，顾名思义，它代表浏览器第一次向屏幕绘内容。注意：只有首次绘制文本、图片（包含背景图）、非白色的canvas或SVG时才被算作FCP。统计逻辑通过performance.getEntriesByType('paint’)，取第二个pain的时间，或者通过Mutation Observer观察到首次节点变动的时间。如： const domEntries = [] const

【CV中的Attention机制】融合Non-Local和SENet的GCNet

阅读更多关于【CV中的Attention机制】融合Non-Local和SENet的GCNet

前言: 之前已经介绍过SENet和Non Local Neural Network(NLNet)，两者都是有效的注意力模块。作者发现NLNet中attention maps在不同位置的响应几乎一致，并结合SENet后，提出了Global Context block，用于全局上下文建模，在主流的benchmarks中的结果优于SENet和NLNet。 GCNet论文名称为：《 GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond 》，是由清华大学提出的一个注意力模型，与SE block、Non Local block类似，提出了GC block。为了克服NL block计算量过大的缺点，提出了一个Simplified NL block，由于其与SE block结构的相似性，于是在其基础上结合SE改进得到GC block。 SENet中提出的SE block是使用全局上下文对不同通道进行权值重标定，对通道依赖进行调整。但是采用这种方法，并没有充分利用全局上下文信息。捕获长距离依赖关系的目标是对视觉场景进行全局理解，对很多计算机视觉任务都有效，比如图片分类、视频分类、目标检测、语义分割等。而NLNet就是通过自注意力机制来对长距离依赖关系进行建模。作者对NLNet进行试验

毕设日志(3.14)——SAR检测数据集问题

阅读更多关于毕设日志(3.14)——SAR检测数据集问题

做基于深度学习的目标检测问题需要数据集，网上的代码大多数是针对PASCAL VOC以及COCO数据集检测的，然而让我头大的是很难找到针对目标检测的SAR图像数据集。导师一开始让我了解OpenSARship数据集，该数据集的文件结构如该数据集并没有打回归框标签，更加适合做分类任务而做目标检测任务则需要自己制作类似VOC和COCO数据集。于是在很多博客上看了制作VOC和COCO数据集的方法。在知乎文章《用于深度学习SAR图像舰船目标检测的数据集SSDD和SSDD+》中(文章链接https://zhuanlan.zhihu.com/p/58404659)，了解到SSDD数据集正是满足需求的现成做SAR目标检测的数据集，并从该作者的另一篇文章《SAR图像舰船目标检测-我们应该做些什么》（文章链接https://zhuanlan.zhihu.com/p/104260766）介绍了其它可用于SAR目标检测的数据集 SAR-Ship-Dataset AIR-SARShip-1.0 ISSID 幸运的是，学长给了我这些数据集的压缩包。数据集的获取算是初步搞定啦！来源： oschina 链接： https://my.oschina.net/u/4409965/blog/4269914

毕设日志(3.14)——SAR检测数据集问题

阅读更多关于毕设日志(3.14)——SAR检测数据集问题

MyDLNote

阅读更多关于 MyDLNote

MyDLNote - Attention: [2020CVPR] ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks Qilong Wang1 , Banggu Wu1 , Pengfei Zhu1 , Peihua Li2 , Wangmeng Zuo3 , Qinghua Hu1,∗ 1 Tianjin Key Lab of Machine Learning, College of Intelligence and Computing, Tianjin University, China 2 Dalian University of Technology, China 3 Harbin Institute of Technology, China 【前言】本文的贡献是改变了对传统 SE 的认知，从中学到的收货是，对于一个网络，不要盲目顺从其中的细节，动手做些真实的实验，能得到新的结论和发现。语言写作只能说正常。 Abstract Recently, channel attention mechanism has demonstrated to offer great potential in improving the performance of deep

【论文笔记】Side-Aware Boundary Localization for More Precise Object Detection

阅读更多关于【论文笔记】Side-Aware Boundary Localization for More Precise Object Detection

& 论文概述获取地址： https://arxiv.org/abs/1912.04260 代码地址： https://github.com/open-mmlab/mmdetection & 总结与个人观点本文提出Side-Aware Boundary Localization(SABL)以取代传统的bbox回归。提取关注于边界内容的边缘感知特征用来定位。提出使用该特征的轻量级two-step bucketing方法以精确定位目标。同时引入重打分(rescore)机制，利用bucket的置信度来保留高质量的bbox。在各种目标检测流程中，SABL均展现了一致且重大的性能提升。本文通过对回归方法的分析，观察到更简单精确回归到边界框的方法，设计的整体框架很精巧，思路很清晰，而且每个方法的提出都很明确，值得一观。 & 贡献使用Side-Aware Boundary Localization(SABL)取代之前的bbox regression分支，对bbox的每条边分别定位，提高了定位的精度；使用Bucketing scheme进行细粒度目标定位以及对分类进行rescore，降低高精度bbox的抑制率；在COCO数据集中，在Faster R-CNN、RetinaNet以及Cascade R-CNN的基础上替换回归分支，最终分别提升了3.0、1.6以及0.9个点。 & 拟解决的问题

订阅 coco