attention

tensorflow――attention机制(Spatial and Channel-Wise Attention )

匿名 (未验证) 提交于 2019-12-03 00:22:01
论文 SCA-CNN的tensorflow代码实现(保存下来): 论文: in Convolutional Networks for Image Captioning """ Attention Model: WARNING: Use BatchNorm layer otherwise no accuracy gain. Lower layer with SpatialAttention, high layer with ChannelWiseAttention. In Visual155, Accuracy at 1, from 75.39% to 75.72%(↑0.33%). """ import tensorflow as tf def spatial_attention(feature_map, K=1024, weight_decay=0.00004, scope="", reuse=None): """This method is used to add spatial attention to model. Parameters --------------- @feature_map: Which visual feature map as branch to use. @K: Map `H*W` units to K units. Now unused.

Face Paper:Face Attention Network: An Effective Face Detector for the Occluded Faces

匿名 (未验证) 提交于 2019-12-03 00:22:01
人脸检测的性能近期由于深度学习的发展大幅度提高, 然而对于人脸的遮挡问题一直是人脸检测中一个比较有挑战的问题, 这种场景多出现于佩戴口罩、太阳镜和其他人的遮挡等。 这篇文章提出了Face Attention Network (FAN), 有效提升了有遮挡人脸的召回。提出了a new anchor-level attention,增强人脸区域的特征. 结合anchor assign strategy and data augmentation techniques,在WiderFace and MAFA上达到了state-of-the-art的效果。 Base Framework U-shape的结构能够很好地融合底层丰富的特征信息和High-level的语义信息. 基础结构借鉴RetinaNet(FPN + ResNet). RetinaNet包括两个subnet, 一个用于分类, 另一个用于回归。 分类subnet使用4个 3*3 conv layers (each with 256 filters), followed by a 3×3 convolution layer with KA filters where K means the number of classes and A means the number of anchors per location. For

Learning Attentions: Residual Attentional Siamese Network for High Performance 论文读后感

匿名 (未验证) 提交于 2019-12-03 00:19:01
Learning Attentions: Residual Attentional Siamese Networkfor High Performance Online Visual Tracking 王强大神维护的benchamark-results跟踪结果: https://github.com/foolwood/benchmark_results 论文下载地址: http://www.dcs.bbk.ac.uk/~sjmaybank/CVPR18RASTrackCameraV3.3.pdf 论文代码: https://github.com/foolwood/RASNet 1. 摘要: 基于离线训练的目标跟踪可以很好的平衡准确率和跟踪速度,但是基于离线训练的模型来适应在线跟踪目标仍然是一个挑战。本文在孪生网络里面重构了相关滤波、加入了三种Attention机制。该算法缓解了深度学习中过拟合的问题,同时将表征学习和判别学习分开来增强算法的判别能力和适应能力。算法在OTB2015和VOT2017的跟踪里面取得了很好的结果,速度可以到达80fps。 2. 文章的三个主要的贡献: 3. 算法跟踪过程: 4. Attention机制 5.加权相关滤波: 作者认为蓝色的框比绿色的框更能表示所跟踪的目标。所以用加权相关滤波来表示这种特征,找到一个响应值最大的跟踪框(找到图中蓝色的跟踪框)。

温故BERT之Transformer

匿名 (未验证) 提交于 2019-12-03 00:06:01
Transformer ―― attention is all you need Transformer模型是2018年5月提出的,可以替代传统RNN和CNN的一种新的架构,用来实现机器翻译,论文名称是attention is all you need。无论是RNN还是CNN,在处理NLP任务时都有缺陷。CNN是其先天的卷积操作不很适合序列化的文本,RNN是其没有并行化,很容易超出内存限制(比如50tokens长度的句子就会占据很大的内存)。 下面左图是transformer模型一个结构,分成左边Nx框框的encoder和右边Nx框框的decoder,相较于RNN+attention常见的encoder-decoder之间的attention(上边的一个橙色框),还多出encoder和decoder内部的self-attention(下边的两个橙色框)。每个attention都有multi-head特征。最后,通过position encoding加入没考虑过的位置信息。 下面从multi-head attention,self-attention, position encoding几个角度介绍。 multi-head attention:   将一个词的vector切分成h个维度,求attention相似度时每个h维度计算。由于单词映射在高维空间作为向量形式

一个self attention的pytorch实现

匿名 (未验证) 提交于 2019-12-03 00:03:02
class SelfAttention ( nn . Module ) : """ scores each element of the sequence with a linear layer and uses the normalized scores to compute a context over the sequence. """ def __init__ ( self , d_hid , dropout = 0 . ) : super ( ) . __init__ ( ) self . scorer = nn . Linear ( d_hid , 1 ) self . dropout = nn . Dropout ( dropout ) def forward ( self , input_seq , lens ) : batch_size , seq_len , feature_dim = input_seq . size ( ) input_seq = self . dropout ( input_seq ) scores = self . scorer ( input_seq . contiguous ( ) . view ( - 1 , feature_dim ) ) . view ( batch_size , seq_len ) max_len = max

李宏毅教授Attention课程笔记总结

匿名 (未验证) 提交于 2019-12-02 23:52:01
Generation 可以用RNN生成文本、图片(grid lstm)、视频、手写字、语音 *grid lstm Conditional generation:不是随机产生,而是有情境地产生 应用:image caption/machine translation/chat-bot Encoder和Decoder的参数可以一样或者不一样,当参数一样时,参数比较少,比较不容易过拟合,但是如果有足够的数据,那么也可以参数不一样 这也就是seq2seq 双层encoder记录过去历史 Attention :是一种动态的conditional generation 每个时间点关注不同的信息,可以不用将所有信息都放在一个vector中 Match函数可以自己设计 z1 是 c0 输入到RNN后hidden layer的输出 attention还可以应用于语音识别,但效果不如传统的HMM方法 attention应用于image caption,将attention应用于flatten前的一组vector上 Memory Network 在memory上做attention 传统memory network中attention和抽取信息是对同一组vector 升级版:将attention和抽取信息分开,将同一个句子变成两组不同的vector,分别进行 Hopping

python错误:TypeError: 'module' object is not callable

匿名 (未验证) 提交于 2019-12-02 22:51:30
与import导入机制有关 详细观察import导入的方式:明确一点的是,attention_keras.py文件和attention_tf.py文件在同一个包里(即一个文件夹下) #设置attension-master-》Mark Directory As -> Resources ROOT 规则:1,如果调用的是B.py文件中的方法,即B.py 中有Class B: 调用的原则是:模块名―类名―方法名 文章来源: python错误:TypeError: 'module' object is not callable

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

ε祈祈猫儿з 提交于 2019-12-02 21:50:38
目录 前言 一、Attention Is All You Need Attention机制 Transformer 成绩 二、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Vanilla Transformer 循环机制 相对位置编码 Transformer-XL 成绩 RECL 三、XLNet: Generalized Autoregressive Pretraining for Language Understanding BERT 有序因子排列 双流自注意力 XLNet 成绩 预训练参数 前言 正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时,XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet,大一统预训练模型的成功,无疑昭示着行业的快速进步。现在是最好的时机。回到正题,本文虽篇幅较长,但能提供不一样的视角,帮你迅速理清模型的细节。废话不多说,笔者这就将带你快速品读,XLNet 诞生之路上最重要的三篇论文: Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length

Bert由来之--word2vec和transformer

♀尐吖头ヾ 提交于 2019-12-02 21:46:52
word2vec -> Transformer -> ELMo -> Bert word2vec是训练词向量。有skim-gram和CBOW两种形式。 重点:训练样本是一个句子的中心词和周围的词拼接成。 例如skim-gram例如 I love apple very much。以apple 为中心词,窗口大小是2,则可以凑出样本:【apple,love】【apple,I】【apple,very】【apple,much】。样本的前一个input,后一个是output,训练一个词的v_c和U(词向量和outputvector) CBOW是反过来的,通过周围的词来预测中心词。 Transformer是全部注意力,舍去CNN和RNN架构 例如:机器翻译 encoder的具体长相 self-attention得到特征向量Z,即下图中的Attention 而Feed Forward阶段,是两层全连接,第一层的激活函数是ReLU,第二层的激活函数是 decoder的长相 可以看出,decoder和encoder不同的是attention是两个了, 解释说: attention1)是当前翻译的和已经翻译的关系,就是y_t和y_t-1的关系 attention2)是当前翻译的和句子的语义向量的关系 层与层之间的关系 详细介绍self-attention 上面的图,矩阵中间的q1,q2,k1,k2

追溯XLNet的前世今生:从Transformer到XLNet

本小妞迷上赌 提交于 2019-12-02 21:44:56
作者丨 李格映 来源 | 转载自CSDN博客 导读: 2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果! 从 BERT 到 XLNet,预训练模型在不断进步,本文将解读 XLNet 的诞生过程,回顾它的前世今生。 前言 正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时,XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet,大一统预训练模型的成功,无疑昭示着行业的快速进步。现在是最好的时机。回到正题,本文虽篇幅较长,但能提供不一样的视角,帮你迅速理清模型的细节。废话不多说,笔者这就将带你快速品读,XLNet 诞生之路上最重要的三篇论文: Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (9 Jan. 2019) XLNet: Generalized Autoregressive Pretraining for Language Understanding (19 Jun. 2019) 一