attention | 易学教程

tensorflow――attention机制(Spatial and Channel-Wise Attention )

阅读更多关于 tensorflow――attention机制(Spatial and Channel-Wise Attention )

论文 SCA-CNN的tensorflow代码实现（保存下来）：论文： in Convolutional Networks for Image Captioning """ Attention Model: WARNING: Use BatchNorm layer otherwise no accuracy gain. Lower layer with SpatialAttention, high layer with ChannelWiseAttention. In Visual155, Accuracy at 1, from 75.39% to 75.72%(↑0.33%). """ import tensorflow as tf def spatial_attention(feature_map, K=1024, weight_decay=0.00004, scope="", reuse=None): """This method is used to add spatial attention to model. Parameters --------------- @feature_map: Which visual feature map as branch to use. @K: Map `H*W` units to K units. Now unused.

Face Paper：Face Attention Network: An Effective Face Detector for the Occluded Faces

阅读更多关于 Face Paper：Face Attention Network: An Effective Face Detector for the Occluded Faces

人脸检测的性能近期由于深度学习的发展大幅度提高, 然而对于人脸的遮挡问题一直是人脸检测中一个比较有挑战的问题, 这种场景多出现于佩戴口罩、太阳镜和其他人的遮挡等。这篇文章提出了Face Attention Network (FAN), 有效提升了有遮挡人脸的召回。提出了a new anchor-level attention，增强人脸区域的特征. 结合anchor assign strategy and data augmentation techniques，在WiderFace and MAFA上达到了state-of-the-art的效果。 Base Framework U-shape的结构能够很好地融合底层丰富的特征信息和High-level的语义信息. 基础结构借鉴RetinaNet(FPN + ResNet). RetinaNet包括两个subnet, 一个用于分类, 另一个用于回归。分类subnet使用4个 3*3 conv layers (each with 256 filters), followed by a 3×3 convolution layer with KA filters where K means the number of classes and A means the number of anchors per location. For

Learning Attentions: Residual Attentional Siamese Network for High Performance 论文读后感

阅读更多关于 Learning Attentions: Residual Attentional Siamese Network for High Performance 论文读后感

Learning Attentions: Residual Attentional Siamese Networkfor High Performance Online Visual Tracking 王强大神维护的benchamark-results跟踪结果： https://github.com/foolwood/benchmark_results 论文下载地址： http://www.dcs.bbk.ac.uk/~sjmaybank/CVPR18RASTrackCameraV3.3.pdf 论文代码： https://github.com/foolwood/RASNet 1. 摘要：基于离线训练的目标跟踪可以很好的平衡准确率和跟踪速度，但是基于离线训练的模型来适应在线跟踪目标仍然是一个挑战。本文在孪生网络里面重构了相关滤波、加入了三种Attention机制。该算法缓解了深度学习中过拟合的问题，同时将表征学习和判别学习分开来增强算法的判别能力和适应能力。算法在OTB2015和VOT2017的跟踪里面取得了很好的结果，速度可以到达80fps。 2. 文章的三个主要的贡献： 3. 算法跟踪过程： 4. Attention机制 5.加权相关滤波：作者认为蓝色的框比绿色的框更能表示所跟踪的目标。所以用加权相关滤波来表示这种特征，找到一个响应值最大的跟踪框（找到图中蓝色的跟踪框）。

温故BERT之Transformer

阅读更多关于温故BERT之Transformer

Transformer ―― attention is all you need Transformer模型是2018年5月提出的，可以替代传统RNN和CNN的一种新的架构，用来实现机器翻译，论文名称是attention is all you need。无论是RNN还是CNN，在处理NLP任务时都有缺陷。CNN是其先天的卷积操作不很适合序列化的文本，RNN是其没有并行化，很容易超出内存限制（比如50tokens长度的句子就会占据很大的内存）。下面左图是transformer模型一个结构，分成左边Nx框框的encoder和右边Nx框框的decoder，相较于RNN+attention常见的encoder-decoder之间的attention（上边的一个橙色框），还多出encoder和decoder内部的self-attention（下边的两个橙色框）。每个attention都有multi-head特征。最后，通过position encoding加入没考虑过的位置信息。下面从multi-head attention，self-attention， position encoding几个角度介绍。 multi-head attention: 　　将一个词的vector切分成h个维度，求attention相似度时每个h维度计算。由于单词映射在高维空间作为向量形式

一个self attention的pytorch实现

阅读更多关于一个self attention的pytorch实现

class SelfAttention ( nn . Module ) : """ scores each element of the sequence with a linear layer and uses the normalized scores to compute a context over the sequence. """ def __init__ ( self , d_hid , dropout = 0 . ) : super ( ) . __init__ ( ) self . scorer = nn . Linear ( d_hid , 1 ) self . dropout = nn . Dropout ( dropout ) def forward ( self , input_seq , lens ) : batch_size , seq_len , feature_dim = input_seq . size ( ) input_seq = self . dropout ( input_seq ) scores = self . scorer ( input_seq . contiguous ( ) . view ( - 1 , feature_dim ) ) . view ( batch_size , seq_len ) max_len = max

李宏毅教授Attention课程笔记总结

阅读更多关于李宏毅教授Attention课程笔记总结

Generation 可以用RNN生成文本、图片(grid lstm)、视频、手写字、语音 *grid lstm Conditional generation：不是随机产生，而是有情境地产生应用：image caption/machine translation/chat-bot Encoder和Decoder的参数可以一样或者不一样，当参数一样时，参数比较少，比较不容易过拟合，但是如果有足够的数据，那么也可以参数不一样这也就是seq2seq 双层encoder记录过去历史 Attention ：是一种动态的conditional generation 每个时间点关注不同的信息，可以不用将所有信息都放在一个vector中 Match函数可以自己设计 z1 是 c0 输入到RNN后hidden layer的输出 attention还可以应用于语音识别，但效果不如传统的HMM方法 attention应用于image caption，将attention应用于flatten前的一组vector上 Memory Network 在memory上做attention 传统memory network中attention和抽取信息是对同一组vector 升级版：将attention和抽取信息分开，将同一个句子变成两组不同的vector，分别进行 Hopping

python错误:TypeError: 'module' object is not callable

阅读更多关于 python错误:TypeError: 'module' object is not callable

与import导入机制有关详细观察import导入的方式：明确一点的是，attention_keras.py文件和attention_tf.py文件在同一个包里（即一个文件夹下） #设置attension-master-》Mark Directory As -> Resources ROOT 规则：1，如果调用的是B.py文件中的方法，即B.py 中有Class B: 调用的原则是：模块名―类名―方法名文章来源: python错误:TypeError: 'module' object is not callable

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

阅读更多关于 Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

目录前言一、Attention Is All You Need Attention机制 Transformer 成绩二、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Vanilla Transformer 循环机制相对位置编码 Transformer-XL 成绩 RECL 三、XLNet: Generalized Autoregressive Pretraining for Language Understanding BERT 有序因子排列双流自注意力 XLNet 成绩预训练参数前言正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时，XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet，大一统预训练模型的成功，无疑昭示着行业的快速进步。现在是最好的时机。回到正题，本文虽篇幅较长，但能提供不一样的视角，帮你迅速理清模型的细节。废话不多说，笔者这就将带你快速品读，XLNet 诞生之路上最重要的三篇论文： Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length

Bert由来之--word2vec和transformer

阅读更多关于 Bert由来之--word2vec和transformer

word2vec -> Transformer -> ELMo -> Bert word2vec是训练词向量。有skim-gram和CBOW两种形式。重点：训练样本是一个句子的中心词和周围的词拼接成。例如skim-gram例如 I love apple very much。以apple 为中心词，窗口大小是2，则可以凑出样本：【apple，love】【apple，I】【apple，very】【apple，much】。样本的前一个input，后一个是output，训练一个词的v_c和U（词向量和outputvector） CBOW是反过来的，通过周围的词来预测中心词。 Transformer是全部注意力，舍去CNN和RNN架构例如：机器翻译 encoder的具体长相 self-attention得到特征向量Z，即下图中的Attention 而Feed Forward阶段，是两层全连接，第一层的激活函数是ReLU，第二层的激活函数是 decoder的长相可以看出，decoder和encoder不同的是attention是两个了，解释说： attention1）是当前翻译的和已经翻译的关系，就是y_t和y_t-1的关系 attention2）是当前翻译的和句子的语义向量的关系层与层之间的关系详细介绍self-attention 上面的图，矩阵中间的q1，q2，k1，k2

追溯XLNet的前世今生：从Transformer到XLNet

阅读更多关于追溯XLNet的前世今生：从Transformer到XLNet

作者丨李格映来源 | 转载自CSDN博客导读： 2019 年 6 月，CMU 与谷歌大脑提出全新 XLNet，基于 BERT 的优缺点，XLNet 提出一种泛化自回归预训练方法，在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果！从 BERT 到 XLNet，预训练模型在不断进步，本文将解读 XLNet 的诞生过程，回顾它的前世今生。前言正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时，XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet，大一统预训练模型的成功，无疑昭示着行业的快速进步。现在是最好的时机。回到正题，本文虽篇幅较长，但能提供不一样的视角，帮你迅速理清模型的细节。废话不多说，笔者这就将带你快速品读，XLNet 诞生之路上最重要的三篇论文： Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (9 Jan. 2019) XLNet: Generalized Autoregressive Pretraining for Language Understanding (19 Jun. 2019) 一

订阅 attention