coco

ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

余生长醉 提交于 2020-10-24 06:15:43
论文《ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks》的完整翻译,如有翻译不当之处敬请评论指出,蟹蟹!(2019-10-17) 作者:Qilong Wang1, Banggu Wu1, Pengfei Zhu1, Peihua Li2, Wangmeng Zuo3, Qinghua Hu1 发表:暂未知 代码:https://github.com/BangguWu/ECANet 摘要 通道注意力在改善深度卷积神经网络(CNNs)性能方面具有巨大的潜力。然而,大多数现有的方法致力于开发更复杂的注意力模块,以获得更好的性能,不可避免地增加了计算负担。为了克服性能与复杂度权衡的悖论,本文尝试研究一种用于提高深度CNNs性能的超轻量级注意模块。特别地,我们提出了一个有效的通道注意(ECA)模块,它只涉及k (k<=9)参数,但带来了明显的性能增益。通过回顾SENet中的通道注意模块,我们实证地证明了避免降维和适当的跨通道交互对于学习有效的通道注意是重要的。因此,我们提出了一种无降维的局部跨通道交互策略,该策略可以通过快速一维卷积有效地实现。此外,我们开发了一个通道维数的函数来自适应地确定一维卷积的核大小,它代表了局域交叉通道相互作用的覆盖范围

秋天的第一杯奶茶该买哪家?Python 爬取美团网红奶茶店告诉你

我的梦境 提交于 2020-10-19 09:53:34
作者 | Gordon,Alice 出品 | CSDN(ID:CSDNnews) 头图 | CSDN下载自视觉中国 现在越来越多年轻人手里的那一杯快乐肥宅水,从可乐换成了奶茶。上世纪80年的奶茶并不像现在的奶茶口味繁多,配料多样,而大部分80、90后童年的奶茶只有一个名字,那就是“台湾珍珠奶茶”。只需要一间几平方米的小店,一台手动封杯口机器,几罐不同口味的奶茶粉末,就可以开一家奶茶店。 奶茶起源于中国北方游牧民族,知名于中国台湾。早期的台湾奶茶品牌,如CoCo、50岚、老虎茶等等。前两家CoCo和50岚(现在的1点点)都已经成为中国大陆大型的连锁奶茶店。随着奶茶越来越受大众喜爱,涌现出更多的本土奶茶品牌,如蜜雪冰城、益禾堂。再到如今的网红时代,由于不同奶茶品牌的口味差异不大,如何更好地营销自己的奶茶品牌,让消费者能从众多奶茶中翻到自己的牌子,变得更加重要。例如奈雪的茶主打高端路线,奶茶均价在40元左右;喜茶主打品牌差异化,注重茶饮口感的同时营造店面排长龙的“时尚文化”。 图1 奶茶发展史 数据获取 本文数据来源于美团网,抓取了12个热门城市的奶茶店名单,城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。共计68614家奶茶店,3万多个奶茶品牌。在构建抓取URL时,需要注意将城市的维度具体到城市商圈,因为每个URL最多只显示32页内容

TensorFlow 中最大的 30 个机器学习数据集

你离开我真会死。 提交于 2020-10-17 06:44:10
作者: Limarc Ambalina 编译:ronghuaiyang 原文链接: TensorFlow中最大的30个机器学习数据集 ​ mp.weixin.qq.com 导读 包括图像,视频,音频,文本,非常的全。 largest tensorflow datasets for machine learning 由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。 图像数据集 1、CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过20万名名人的图像。 celebrity face images dataset 每幅图像包含5个面部特征点和40个二值属性标注。 2、Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32和64 x 64。 3、Lsun – Lsun是一个大型图像数据集,用于帮助训练模型理解场景

AI大有可为:NAIE平台助力垃圾分类

扶醉桌前 提交于 2020-10-15 01:49:38
摘要: 生活垃圾的分类和处理是目前整个社会都在关注的热点,如何对生活垃圾进行简洁高效的分类与检测对垃圾的运输处理至关重要。AI技术在垃圾分类中的应用成为了关注焦点。 如今AI已经是这个时代智能的代名词了,任何领域都有AI的身影,垃圾分类及监管等场景自然也少不了“AI+”的赋能。 不过,垃圾往往属于商品的极端变形体,情况比较特殊。目前的技术在视觉可见的基础上,是可以做到垃圾分类报警提醒的,比如判断垃圾是否是经过分类整理的。至于是否能够直接进行视觉检测并分类,且达到某种效果,需要更多的数据和实验支撑才能判断这件事情的可行性。针对这些问题,我们或许可以从海华垃圾分类挑战赛中去听听参赛者都是如何用技术来改变世界的。 海华垃圾分类挑战赛数据包括单类垃圾数据集以及多类垃圾数据集。单类垃圾数据集包含80,000张单类生活垃圾图片,每张单类垃圾图片中仅有一个垃圾实例。 多类垃圾数据集包括4998张图像,其中2,998张多类垃圾图片作为训练集数据,A榜和B榜各包含1000张测试图像,每张多类垃圾图片中包含至多20类垃圾实例。我们将对两种数据集分别进行介绍。 一、多类别垃圾 图1 多类垃圾数据类别分布 如图1所示,多类别垃圾涵盖了204类垃圾,但这204类的数据非常不均衡,有一些类别数目非常少甚至没有出现。 图2 多类垃圾数据可视化 图2中两张图是训练集中的两张图像

PPDet:减少Anchor-free目标检测中的标签噪声,小目标检测提升明显

邮差的信 提交于 2020-10-14 09:53:40
     本文首发于AI算法修炼营   作者 | SFXiang   编辑 | 青暮   本文介绍一篇收录于BMVC2020的论文,这篇论文的主要的思想是 减少anchor-free目标检测中的label噪声,在COCO小目标检测上表现SOTA!   性能优于FreeAnchor、CenterNet和FCOS等网络。   整体思路可以说相当简单,就是在原来的基础上增加了标签池化和目标框聚合操作,其实可以看作是tricks。      论文地址: https://arxiv.org/pdf/2008.01167.pdf   代码地址(基于mmdetection实现):   https://github.com/nerminsamet/ppdet   当前的anchor-free目标检测器将空间上落在ground truth标签边界框box的预定中心区域内的所有特征标记为正。   这种方法会在训练过程中引起 标签噪音Label Noise ,因为 其中一些带有正标签的特征可能位于背景或遮挡物上,或者根本不是有判别性的特征。   在本文中,提出了一种新的标记策略,旨在减少anchor-free目标检测器中的标记噪声。具体将源于各个特征的预测汇总为一个预测,这使模型可以减少训练过程中非判别性特征(non-discriminatory features)的贡献。   在此基础上

An Analysis of Visual Question Answering Algorithms翻译

半世苍凉 提交于 2020-10-09 04:42:00
Abstract 在视觉问答(VQA)中,算法必须回答关于图像的基于文本的问题。尽管自2014年末以来,VQA已经创建了多个数据集,但它们在内容和算法评估方式上都存在缺陷。结果,评估分数被夸大了,而且主要是通过回答更简单的问题来决定的,这使得比较不同的方法变得很困难。在本文中,我们使用一个名为任务驱动图像理解挑战(TDIUC)的新数据集来分析现有的VQA算法,该数据集有超过160万个问题,分为12个不同的类别。我们还引入了对给定图像没有意义的问题,以迫使VQA系统对图像内容进行推理。我们提出新的评估方案,以弥补过度代表的问题类型,并使其更容易研究算法的优势和弱点。我们分析了基线和最先进的VQA模型的性能,包括多模态紧致双线性池(MCB)、神经模块网络和循环回答单元。我们的实验建立了注意力如何比其他类别更有助于某些类别,确定哪些模型比其他模型更有效,并解释了简单的模型(例如MLP)如何通过简单地学习回答大的、简单的问题类别来超越更复杂的模型(MCB)。 1. Introduction 在开放式视觉问题解答(VQA)中,算法必须对有关图像的任意基于文本的问题产生答案[21,3]。 VQA是一个令人兴奋的计算机视觉问题,它要求系统能够执行许多任务。 真正解决VQA将是人工智能的一个里程碑,并将极大地促进人机交互。 但是,VQA数据集必须测试广泛的能力,才能充分衡量进度。

深度学习目标检测系列之YOLO9000

我只是一个虾纸丫 提交于 2020-10-07 05:10:14
1.闲言 在正式的学习之前,我喜欢先放飞一下自我。我觉得技术就是用来聊的,找个酒馆,找些大神,咱们听着音乐一起聊起来。所以我特别希望能把自己的文字口语化,就像玩一样。就像古代那些说书人一样,萧远山和慕容博相视一笑,王图霸业,血海深仇,尽归尘土。这是我向往的一种表达方式,但是我现在还达不到那个境界,只能尽力而为吧。 2.YOLOV2 1.十个改造点 yolov1提升了目标检测的速度,但是在MAP方面却掉了上去。所以说铁打的大神,流水的模型,他们自然会想尽各种办法来解决这个问题。在我看来这就好像程序员写bug一样,到头来总是要改的。所以yolov2可以分为两个部分,第一部分是对MAP提升所做的努力,第二部分是对原来模型的优化,当然是在保证检测速度的前提下。 下面的10个点,是V2的大神们做出的努力。这意味着什么,速度的提升?准确率的提升?模型的泛化能力提升?对,但是更重要的我觉得是工作量的体现,年终的结算。有时候看paper的时候,我们觉得这些大神们都跟圣人一样。他们做出的所有努力都是要造福社会,都是为了推动AI视觉的进一步发展。其实他们也是人,也会有来自各方面的限制,也会有自己的私心,一些小小的任性和种种生而为人而不能的无奈。所以读paper就是在和大神们对话,一边说着你真牛逼,一边在心里面想着我一定要超越你。 下来我们来解释一下,如果说模型预测出来的结果不是很令人满意

百度飞桨PaddleDetection威力再显,助力获得两项ECCV目标检测冠军

拜拜、爱过 提交于 2020-10-04 04:20:46
近日,百度视觉团队借助 Paddle Detection在计算机视觉顶会ECCV 2020 (European Conference on Computer Vision,欧洲计算机视觉国际会议)比赛中,斩获两个赛道冠军,分别是Tiny Object Detection和目标检测领域最权威的比赛COCO。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu ​ Paddle Detection是基于 飞桨 核心框架构建的目标检测开发套件,覆盖主流目标检测算法,并提供丰富的预训练模型,帮助开发者快速搭建出各种检测任务框架,高质量完成各类目标检测任务。 Paddle Detection采用模块化设计,解耦了检测常用的组件,非常方便开发者按需组合并扩展新的算法。 ​ Paddle Detection产品结构 经过不断打磨优化, Paddle Detection的YOLO v3系列模型性能大幅增强,新增多款IoU(Interp over Union)、损失函数

Coco2d-x 塔防手游“贼来了”之开发简档 之 零

纵然是瞬间 提交于 2020-10-04 03:47:26
原来的教程为《塔防手游之贼来了》(这是我之前学习Cocos2d-x时候,看到的一个比较好的教程)原文地址目前只在泰然网看到, http://www.tairan.com/archives/6413 ,原作者为任珊。本文是基于这个教程,而编写的手游开发简档,有了这些图表,你就可以轻松的开发出这款手游了。 虽然《贼来了》是一篇很好的教程,但是我觉得这跟网上其他教程一样,看的人只能学会一些引擎的api和相关知识,而并不能知其然,知其所以然的开发一款小手游。只能被动的跟着教程的步骤一步一步的做。 之后我开始看了一些uml的书籍,觉得有一句话说的很对:“先设计,再编码”。对于这些教程来说,如果你把设计做到了类图的地步,那写出代码就是水到渠成的事情。 画uml图的软件,推荐微软的visio,在《大象 Thinking in UML》那本书里面用的是Rose。visio的使用非常简单,只要你学过uml,就会用。 最后,正如某本书所说的,uml图只是帮助你设计和理解软件的手段,不一定要过多的追求准确性,你更多的时候,可能只是需要在本子上画出草图而已。 来源: oschina 链接: https://my.oschina.net/u/4379065/blog/4341534

暴力方法将成过去?UC伯克利等新研究返璞归真,探索网络的本质

帅比萌擦擦* 提交于 2020-10-04 00:19:51
         深度卷积神经网络的训练很难,方法很多,有没有可能从中提炼出一条指导性原则呢?加州大学的研究者抛弃暴力搜索方法,试图回归网络最核心简洁的性质。研究作者之一、加州大学伯克利分校马毅教授表示:这应该是真正按原理设计而得到的深度网络。   初始化、归一化和残差连接(skip connection)被认为是训练深度卷积神经网络(ConvNet)并获得最优性能的三大必备技术。   最近,来自加州大学伯克利分校和圣迭戈分校的研究者发布一项研究, 提出不使用归一化和残差连接的深度 ConvNet 在标准图像识别基准上也能实现优异的性能 。其实现方式是:在初始化和训练期间,令卷积核具备近似保距性(near isometric);使用 ReLU 激活函数的变体,实现保距性。      论文地址:https://arxiv.org/pdf/2006.16992.pdf   GitHub 地址:https://github.com/HaozhiQi/ISONet   研究人员进行了大量实验,结果表明此类近似保距网络与残差连接结合后,在 ImageNet 数据集上的性能与 ResNet 相当,在 COCO 数据集上的性能甚至超过 ResNet。而前者甚至都没有应用归一化。   该研究作者之一计算机视觉学者、加州大学伯克利分校马毅教授表示:   这应该是真正按原理设计而得到的深度网络……