lstm

论文学习CNN-LSTM-01:Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

此生再无相见时 提交于 2020-03-01 16:24:50
论文原文 论文下载 论文被引:1651 论文年份:2015 Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting ABSTRACT Both Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) have shown improvements over Deep Neural Networks (DNNs) across a wide variety of speech recognition tasks. CNNs, LSTMs and DNNs are complementary in their modeling capabilities, as CNNs are good at reducing frequency variations, LSTMs are good at temporal modeling, and DNNs are appropriate for mapping features to a more separable space. In this paper, we take advantage of the complementarity of

《Rumor Detection By Exploiting User Credibility Information,Attention and Multi-task Learnning 》解读

你说的曾经没有我的故事 提交于 2020-02-27 19:43:25
由于本人的文采并不是很好,所以之前一直对写博客有点抵触感。为了表达能力,这次真的拼了。。。。 我是做nlp方向的,目前是研一。最近刚确定了谣言检测这个方向,接下来解读的是我看关于谣言检测的第一篇文章,若有不理解的地方,还请见谅哈。 这是ACL顶会的一篇文章,将多任务学习与注意力机制应用到社交网络中谣言检测。 Rumor Detection By Exploiting User Credibility Information,Attention and Multi-task Learnning 摘要 这个模型中,有个共享层和两个有特定功能的层(一个谣言检测层,一个立场简检测层)。并将将用户的信誉信息添加到谣言检测层中,同时又应用注意力机制技术分别在这两层中的隐藏层中。因此,使用多任务的学习架构进行训练,实验的效果比目前主流的谣言检测模型要好。 介绍 在这个介绍中,我认为有个点讲的比较好。就是在处理谣言时要遵循一些步骤: 谣言辨认 - 决定一句话是否值得核实是不是谣言 谣言追踪 - 收集谣言出现时的一些评论 立场分类 - 用来确定用户对谣言真实性的态度 谣言核实 - 谣言要在哪里去预测它的真实值 接下来介绍什么是谣言检测任务 一篇故事 x 是由 n 个相关信息组成,在这里姑且认为是{ m1,m2,…mn} ,这是由m1 来初始的像链条的序列。我所认为这里的mi信息 是对故事x的评论

图文了解RNN与LSTM(详细)

坚强是说给别人听的谎言 提交于 2020-02-27 13:20:47
递归神经网络是最先进的顺序数据算法之一,在苹果Siri和Google语音搜索中都使用到的算法。这是因为它是第一个记忆它的输入的算法,由于内部存储器,这使得它非常适合涉及顺序数据的机器学习问题。它是过去几年Deep Learning的惊人成就背后的算法之一。在这篇文章中,你将学习递归神经网络如何工作的基本概念,最大的问题是什么以及如何解决它们。 介绍 递归神经网络(RNN)是一种功能强大的神经网络类型,属于目前最有前途的算法,因为它们是唯一具有内部存储器的算法。 与许多其他深度学习算法一样,RNN也相对较旧。它们最初是在20世纪80年代创建的,但是由于可用计算能力的增加,现在我们拥有的大量数据以及20世纪90年代的LSTM的发明,这些数据的真正潜力逐渐发挥出来。 由于内部记忆,RNN能够记住他们收到的输入的重要信息,这使得他们能够非常精确地预测接下来会发生什么。 这就是为什么它们是像时间序列、语音、文本、财务数据、音频、视频、天气等时序数据的首选算法,因为它们可以形成对序列及其上下文的深入理解的算法。 递归神经网络在连续数据中产生预测结果,而其他算法则不能。 但是,你何时需要使用循环神经网络? “每当有数据序列时,连接数据的时间动态都比每个帧的空间内容更重要。”- Lex弗里德曼(麻省理工学院) 由于它们正在苹果和谷歌翻译的Siri软件中使用,神经网络正在各地出现。 他们如何工作?

LSTM-Keras Error: ValueError: non-broadcastable output operand with shape (67704,1) doesn't match the broadcast shape (67704,12)

两盒软妹~` 提交于 2020-02-26 10:02:30
问题 Good morning everyone. I'm trying to implement this LSTM Algorithm using Keras and pandas as to read in the csv file in. The backend that I'm using is Tensorflow. I'm having a problem when it comes to inversing my results before predicting the training set. Below is my code import numpy import matplotlib.pyplot as plt import pandas import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from sklearn.preprocessing import MinMaxScaler from

LSTM-Keras Error: ValueError: non-broadcastable output operand with shape (67704,1) doesn't match the broadcast shape (67704,12)

拈花ヽ惹草 提交于 2020-02-26 10:02:30
问题 Good morning everyone. I'm trying to implement this LSTM Algorithm using Keras and pandas as to read in the csv file in. The backend that I'm using is Tensorflow. I'm having a problem when it comes to inversing my results before predicting the training set. Below is my code import numpy import matplotlib.pyplot as plt import pandas import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from sklearn.preprocessing import MinMaxScaler from

How to use model.reset_states() in Keras?

你说的曾经没有我的故事 提交于 2020-02-26 08:37:49
问题 I have sequential data and I declared a LSTM model which predicts y with x in Keras. So if I call model.predict(x1) and model.predict(x2) , Is it correct to call model.reset_states between the two predict() explicitly? Does model.reset_states clear history of inputs, not weights, right? # data1 x1 = [2,4,2,1,4] y1 = [1,2,3,2,1] # dat2 x2 = [5,3,2,4,5] y2 = [5,3,2,3,2] And in my actual code, I use model.evaluate() . In evaluate() , is reset_states called implicitly for each data sample? model

深度学习、机器学习与NLP的前世今生

十年热恋 提交于 2020-02-26 02:43:00
随着深度学习的发展,自然语言处理领域的难题也得到了不断突破,AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)”。目前深度学习在自然语言处理上主要有哪些应用?在工程实践中是否会有哪些瓶颈?以下内容是根据达观数据联合创始人高翔在《深度学习与文本智能处理》直播的总结。 一、为什么做文本挖掘 什么是NLP?简单来说: NLP的目的是让机器能够理解人类的语言,是人和机器进行交流的技术 。它应用在我们生活中,像:智能问答、机器翻译、文本分类、文本摘要,这项技术在慢慢影响我们的生活。 NLP的发展历史非常之久,计算机发明之后,就有以机器翻译为开端做早期的NLP尝试,但早期做得不是很成功。直到上个世纪八十年代,大部分自然语言处理系统还是基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。 第一次突破是上个世纪九十年代,有了统计机器学习的技术,并且建设了很多优质的语料库之后,统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术。从2006年深度学习开始,包括现在图像上取得非常成功的进步之后,已经对NLP领域领域影响非常大。 达观划分的NLP技术层次 当年上小学时有一本书叫《字词句篇与达标训练》,里面讲了字、词、句、篇,我们开始学写字,词是最基础的一级

Paper:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文章

纵然是瞬间 提交于 2020-02-24 23:01:16
Paper:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文章 目录 The 2010s: Our Decade of Deep Learning / Outlook on the 2020s References Beyond Those in Reference [MIR] Selected References from Reference [MIR] The 2010s: Our Decade of Deep Learning / Outlook on the 2020s References Beyond Those in Reference [MIR] [MIR] J. Schmidhuber (2019). Deep Learning: Our Miraculous Year 1990-1991. Containing most references cited above. For convenience also appended below. Compare reddit posts [R2-R8] influenced by ref [MIR] (although my name is frequently misspelled). [BW]

BERT

会有一股神秘感。 提交于 2020-02-22 05:35:39
转:https://www.cnblogs.com/rucwxb/p/10277217.html 【NLP】彻底搞懂BERT 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是写的不全面半懂不懂,重复内容占绝大多数(这里弱弱吐槽百度的搜索结果多样化。。) 一句话概括,BERT的出现,彻底改变了预训练产生词向量和下游具体NLP任务的关系,提出龙骨级的训练词向量概念。 目录:   词向量模型:word2vec, ELMo, BERT比较   BERT细则:Masked LM, Transformer, sentence-level   迁移策略:下游NLP任务调用接口   运行结果:破11项NLP任务最优纪录 一、词向量模型 这里主要横向比较一下word2vec,ELMo,BERT这三个模型,着眼在模型亮点与差别处。 传统意义上来讲,词向量模型是一个工具,可以把真实世界抽象存在的文字转换成可以进行数学公式操作的向量,而对这些向量的操作,才是NLP真正要做的任务。因而某种意义上,NLP任务分成两部分,预训练产生词向量,对词向量操作(下游具体NLP任务

(ICASSP 18)Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection

≯℡__Kan透↙ 提交于 2020-02-20 17:46:09
会议:ICASSP 2018 论文: Temporal Modeling Using Dilated Convolution and Gating for Voice-Activity-Detection 作者:Shuo-Yiin Chang, Bo Li, Gabor Simko, Tara N Sainath, Anshuman Tripathi, Aäron van den Oord, Oriol Vinyals Abstract 语音活动检测(VAD)是预测话语的哪些部分包含语音与背景噪声的任务。确定要发送到解码器的样本以及何时关闭麦克风是重要的第一步。长短期记忆神经网络(LSTM)是用于声音信号顺序建模的一种流行架构,并且已成功用于多种VAD应用程序中。然而,已经观察到,当发声时间长时(即,对于语音命令任务),LSTM遭受状态饱和问题,因此需要周期性地重置LSTM状态。在本文中,我们通过通过无状态扩张卷积神经网络(CNN)对时间变化进行建模,提出了一种不会遭受饱和问题的替代架构。所提出的体系结构在三个方面与传统的CNN不同:它使用了因果卷积,门控激活和残余连接。Google语音键入任务的结果表明,与VAD任务的最新LSTM相比,所提出的体系结构在FR为1%时实现了14%的相对FA改进。我们还包括详细的实验,以研究将建议的体系结构与常规卷积区分开的因素。