attention

时间序列方法

懵懂的女人 提交于 2019-12-02 15:52:50
1、时间序列基本规则法-周期因子法 提取时间序列的周期性特征进行预测,参考: 时间序列规则法快速入门 计算周期因子factors 计算base 预测=base*factors 观察序列,当序列存在周期性时,可以用周期因子法做为baseline 在天池竞赛- 资金流入流出预测-挑战Baseline-天池大赛-阿里云天池 ,周期因子可以取得110分+的成绩,排名进500妥妥的。 2、线性回归-利用时间特征做线性回归 提取时间的周期性特点做为特征,此时训练集每条样本为"时间特征->目标值",时间序列的依赖关系被剔除,不需要严格依赖滑窗截取训练样本。常见是将时间用0-1哑变量表达,有以下若干种特征: 将星期转化为了0-1变量,从周一至周天,独热编码共7个变量 将节假日转化为0-1变量,视具体节假日数目,可简单分为两类,"有假日"-"无假日",独热编码共2个变量;或赋予不同编码值,如区分国庆、春节、劳动节等使用1、2、3表示 将月初转化为0-1变量,简单分两类表示为"是月初"-"非月初",共2个特征 类似的月中、月初可以转化为0-1变量 控制时间粒度,区分是weekday or weekend 观察序列,当序列存在周期性时,线性回归也可做为baseline 在天池竞赛- 资金流入流出预测-挑战Baseline-天池大赛-阿里云天池 ,线性回归可以取得100分+的成绩,应该还没到500

关系抽取 --- Effective deep memory networks for distant supervised relation extraction

限于喜欢 提交于 2019-12-02 15:35:28
实验 同样用held-out以及P@N 结果如下: 从结果看, 本文的方法比Lin 2016 要好, 毕竟考虑了关系的依赖性,不过提升不是很明显,可能原因是数据问题,relation的overlapping比较少。 再看一组对比实验: 分别是去掉word-attention 以及去掉 relation-attention: 可以看出来,去掉relation之后,下降相对来说比去掉word-level更加明显。 总结 这篇文章虽然以Memory Network 为题,不过可以本质还是用Attention引入相关性。 word-level的动机来自Multi-Level 的那篇文章,计算word与target entity的相关性,并且可以多层,从而挖掘更深层次的关系。relation-level的动机则是考虑到数据中的关系依赖性,使用attention来考虑关系之间的相关性。 这篇文章创新的地方在于引入relation之间的依赖关系。 可能改进的地方有,完全从embedding的角度考虑相关性,抛弃Attention,计算量会少一些。包括word-entity embedding; relation-relation embedding; 来源: https://www.cnblogs.com/dhName/p/11751866.html

Pytorch复现U-Net, R2U-Net, Attention U-Net, Attention R2U-Net

依然范特西╮ 提交于 2019-12-02 01:19:14
Pytorch复现U-Net, R2U-Net, Attention U-Net, Attention R2U-Net 项目地址: pytorch Implementation of U-Net, R2U-Net, Attention U-Net, Attention R2U-Net U-Net, R2U-Net, Attention U-Net, Attention R2U-Net U-Net: Convolutional Networks for Biomedical Image Segmentation https://arxiv.org/abs/1505.04597 Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation https://arxiv.org/abs/1802.06955 Attention U-Net: Learning Where to Look for the Pancreas https://arxiv.org/abs/1804.03999 Attention R2U-Net : Just integration of two recent advanced works (R2U-Net +

【NQG】Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks论文笔记

不问归期 提交于 2019-12-01 13:43:48
这篇文章主要处理了在问题生成(Question Generation,QG)中,长文本(多为段落)在seq2seq模型中表现不佳的问题。长文本在生成高质量问题方面不可或缺。 1. Introduction QG可以让对话系统更积极主动,也可以生成更多的问题来丰富QA(Question Answering)系统,同时在教育领域的阅读理解方面也有应用。 QG主要分为rule-based和neural approach: rule-based:可以看作是一个fill-and-rank模型,提取目的句子的相关实体,填入人工编写的模板中,再根据rank方法选择一个或几个最合适的。优点是很流畅,缺点是很依赖人工模板,很难做到open-domain。 neural approach:一般是改良的seq2seq模型。传统的encoder-decoder框架。 这篇文章针对的是answer-aware问题,即生成问题的答案显式得出现在给定文本的一部分或者几部分中。 针对段落生成的主要难点在于如何处理段落中的信息,即如何挑选出适合于生成问题的信息。 本文主要提出了一个改进的seq2seq模型,加入了maxout pointer机制和gated self-attention encoder。在之后的研究中可以通过加入更多feature或者policy gradient等强化学习的方式提升模型性能。 2.

multi-head attention

孤者浪人 提交于 2019-12-01 10:00:18
multi-head attention ■ 论文 | Attention Is All You Need ■ 链接 | https://www.paperweekly.site/papers/224 ■ 源码 | https://github.com/Kyubyong/transformer ■ 论文 | Weighted Transformer Network for Machine Translation ■ 链接 | https://www.paperweekly.site/papers/2013 ■ 源码 | https://github.com/JayParks/transformer 思想:舍弃 RNN,只用注意力模型来进行序列的建模 新型的网络结构: Transformer,里面所包含的注意力机制称之为 self-attention。这套 Transformer 是能够计算 input 和 output 的 representation 而不借助 RNN 的的 model,所以作者说有 attention 就够了。 模型:同样包含 encoder 和 decoder 两个 stage,encoder 和 decoder 都是抛弃 RNN,而是用堆叠起来的 self-attention,和 fully-connected layer 来完成,模型的架构如下:

[转] 深度学习中的注意力机制

南楼画角 提交于 2019-12-01 09:33:22
from: https://zhuanlan.zhihu.com/p/37601161 注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。 人类的视觉注意力 从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。 图1 人类的视觉注意力 视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。 这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。 图1形象化展示了人类在看到一副图像时是如何高效分配有限的注意力资源的,其中红色区域表明视觉系统更关注的目标,很明显对于图1所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置。 深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。 Encoder

CNN在句子相似性建模的应用续--基于attention的多角度CNN模型

扶醉桌前 提交于 2019-12-01 08:31:17
今天我们来介绍一下“UMD-TTIC-UW at SemEval-2016 Task 1: Attention-Based Multi-Perspective Convolutional Neural Networks for Textual Similarity Measurement”这篇论文。其实本篇论文和之前所说的Multi-Perspective CNN原理是一样的。只不过做了一些小的改进。接下来,我们来讲一下。 首先看一下让他的模型架构, 其实就是在embedding层和Multi-Perspective句子建模层之间加入了一个Attention-Based输入层: 这么做的原因在于,MPCNN模型中,两个句子被相互独立的处理,直到full-connected层二者的信息才有了交互,这样会丢失很多有用的信息。而Attention-based层通过对两个句子的词嵌入矩阵进行融合,获得的新的“词向量”具有二者的信息,可以更好的表征句子的相互关系。其计算方法如下所示: 1,计算attention matrix D(m*n维矩阵,m和n分别代表sent1和sent2的长度)。 Dij代表sent1中第i个单词的词向量与sent2中第j个单词的词向量的余弦距离 2,计算每个句子的attention weight vector Ai(长度为对应句子长度)。其计算方法为:

Attention is all you need 详细解读

╄→尐↘猪︶ㄣ 提交于 2019-12-01 06:03:35
  自从 Attention 机制在提出之后,加入 Attention 的 Seq2Seq 模型在各个任务上都有了提升,所以现在的 seq2seq 模型指的都是结合 rnn 和 attention 的模型。传统的基于 RNN 的 Seq2Seq 模型难以处理长序列的句子,无法实现并行,并且面临对齐的问题。 所以之后这类模型的发展大多数从三个方面入手: · input 的方向性: 单向 -> 双向 · 深度: 单层 -> 多层 · 类型: RNN -> LSTM GRU 但是依旧收到一些潜在问题的制约,神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能使得神经网络难以应付长时间的句子,特别是那些比训练语料库中的句子更长的句子;每个时间步的输出需要依赖于前面时间步的输出,这使得模型没有办法并行,效率低;仍然面临对齐问题。 再然后 CNN 由计算机视觉也被引入到 deep NLP 中, CNN 不能直接用于处理变长的序列样本但可以实现并行计算。完全基于 CNN 的 Seq2Seq 模型虽然可以并行实现,但非常占内存,很多的 trick ,大数据量上参数调整并不容易。 本篇文章创新点在于抛弃了之前传统的 encoder-decoder 模型必须结合 cnn 或者 rnn 的固有模式,只用 Attention

【计算机视觉】深入理解Attention机制

半世苍凉 提交于 2019-11-30 21:01:10
1. 什么是Attention机制? 其实我没有找到attention的具体定义,但在计算机视觉的相关应用中大概可以分为两种: 1) 学习权重分布:输入数据或特征图上的不同部分对应的专注度不同 ,对此Jason Zhao在 知乎回答 中概括得很好,大体如下: - 这个加权可以是保留所有分量均做加权(即soft attention);也可以是在分布中以某种采样策略选取部分分量(即hard attention),此时常用RL来做。 - 这个加权可以作用在原图上,也就是《Recurrent Model of Visual Attention》(RAM)和《Multiple Object Recognition with Visual Attention》(DRAM);也可以作用在特征图上,如后续的好多文章(例如image caption中的《 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》)。 - 这个加权可以作用在空间尺度上,给不同空间区域加权;也可以作用在channel尺度上,给不同通道特征加权;甚至特征图上每个元素加权。 - 这个加权还可以作用在不同时刻历史特征上,如Machine Translation。 2) 任务聚焦:通过将任务分解,设计不同的网络结构(或分支

GRAPH ATTENTION NETWORKS

北慕城南 提交于 2019-11-30 05:46:29
GRAPH ATTENTION NETWORKS 【GATs】 本文提出了图注意力网络(GATs),这是一种新的作用在图结构数据上的神经网络框架。 作者利用注意力机制已达到对节点分类的任务取得更好的效果。 Cora数据集: 包含2708个节点,每个样本点都是一篇科学论文,5429个边 每篇论文都由一个1433维的词向量表示,即每个节点1433个特征。 GAT 网络架构 通过堆叠单个的图注意力层(Graph Attentional Layer)来构建任意的图注意力网络。 单个图注意力层(Graph Attentional Layer) 输入:图中所有节点特征向量的集合 N 是图中总结点数, F是每个节点的特征数 输出:图中节点更新后的特征向量的集合(更新后新的特征向量的维数可能与之前的特征向量维数不同) 步骤 一、Input : 例如:输入h1,h2,h3三个节点 二、为了能够让特征更具表达能力,采用了线性变换先对原始特征进行处理 上面输入的三个节点变换以后如下图 三、计算注意力系数 a是注意力机制,在代码中也是以矩阵的形式表现 四、为了使系数在不同节点之间易于比较,我们使用softmax函数在j的所有选项中对它们进行标准化: 五、得到标准化的系数以后,就利用关注系数与对应的节点特征做线性变换,再进行一次非线性变换后,作为节点特征的输出。 multi-head attention