句子

[论文笔记]TC-LSTM(Tang D,et al. 2015)

匿名 (未验证) 提交于 2019-12-02 23:52:01
Effective LSTMs for Target-Dependent Sentiment Classification Introduction 情感分析,也叫做观点挖掘,是NLP和计算语言学中的一个重要任务 这篇文章关注于target-dependent sentiment classfication 给定一个句子和一个目标词,推断对于目标词而言的句子情感极性(正面,负面,中立) I bought a new camera. The picture quality is amazing but the battery life is too short. target string: the picture quality expected sentiment polarity: positive 本文解决的目标:如何有效地对目标词和句子中的上下文进行语义关联性建模 The Approach LSTM-->TD-LSTM(considering the target word)-->TC-LSTM(TD-LSTM with target connection, where the semantic relatedness of target with its context words are incorporated) LSTM 每个词经过word embedding后

关系抽取专题(四)--Neural Relation Extraction with Selective Attention over Instances

匿名 (未验证) 提交于 2019-12-02 23:36:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shark803/article/details/90649386 1. 论文研读笔记 1.1 研究动机 本文是刘知远老师组的工作,也是之前组队比赛就推荐的bag level 关系抽取的base line 论文,值得仔细推敲一下。本文主要针对的是在远程标注(distant supervision)的情况下,如何处理含有大量噪声数据的关系抽取任务。在本文之前的工作,是只取一个最相关的句子作为关系抽取的依据,但是这样没有充分的利用语料。 1.2 研究方法 本文的方法是CNN的基础上,增加了句子级别的attention,作为bag内,和实体相关的一组句子的权重,具体结构如下: 1.3 实验结果 从实验结果看,句子级别的attention,对于远程标注的数据集有比较明显的提升 1.4 创新点 本文的主要贡献有三点: 1) 充分利用了实体间的所有关系表达的句子 2) 有效的去噪 3) 有比较好的适配性,文中提到对于两类CNN均在该任务下有明显提升 1.5 个人点评 本文在当时,算是第一篇把attention用在distant supervision的任务中,个人觉得,算是attention一个非常好的切入点。但是,对于bag level的关系抽取来说,数据不均衡和噪声数据确实非常影响模型的可用性

StringReverseSentence反转句子

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/happy_bigqiang/article/details/90312171 /** * @author LemonLin * @Description :ReverseSentence42_1 *翻转单词顺序列 * * 牛客最近来了一个新员工Fish,每天早晨总是会拿着一本英文杂志,写些句子在本子上。 * 同事Cat对Fish写的内容颇感兴趣,有一天他向Fish借来翻看,但却读不懂它的意思。 * 例如,“student. a am I”。后来才意识到,这家伙原来把句子单词的顺序翻转了, * 正确的句子应该是“I am a student.”。Cat对一一的翻转这些单词顺序可不在行,你能帮助他么? * * 思路:先翻转全部的字符串,再翻转每个空格分割的单词字符串。 * 本题调试bug的时候遇到很多例子无法通过:总结如下: * 1、翻转过程出错:就是对应不上,代码出错部分,就是设置一个j的变量,j变化01234...start+j与end-j互相交换 *2、如果只有空格字符,需要返回空格,用str.trim().equals("") * 3、如果是字符串是偶数个数(字符数组首字符下标是0),那么翻转的middle值为 (start+end)/2+1; * 为什么加一

jieba分词原理-DAG(NO HMM)

匿名 (未验证) 提交于 2019-12-02 22:51:30
最近公司在做一个推荐系统,让我给论坛上的帖子找关键字,当时给我说让我用jieba分词,我周末回去看了看,感觉不错,还学习了一下具体的原理 首先,通过正则表达式,将文章内容切分,形成一个句子数组,这个比较好理解 然后构造出句子的有向无环图(DAG) def get_DAG(self, sentence): self.check_initialized() DAG = {} N = len(sentence) for k in xrange(N): tmplist = [] i = k frag = sentence[k] while i < N and frag in self.FREQ:#对每一个字从这个字开始搜索成词位置 if self.FREQ[frag]: tmplist.append(i)#如果可以成词就加入到DAG中 i += 1 frag = sentence[k:i + 1] if not tmplist: tmplist.append(k)#如果找不到词语,就将自己加入DAG DAG[k] = tmplist return DAG 对句子中的每个字进行分析,从右边一位开始,看sentence[k:i+1]这个词语是否在预设的字典中,这个字典保存了常用的词语(和词语的一部分,但权重为0)和其权重.如果有,并且如果字典中的这个词的权值不等于0

BERT是怎样炼成的--词向量发展史

情到浓时终转凉″ 提交于 2019-12-02 21:57:38
基本原理和特性 词向量 预训练词向量对于很多计算机语言模型至关重要。如何得到优质的词向量是非常热门的研究主题。 什么是好的词向量? 反映出语义和语法的复杂特征 适应不同上下文进行变换 历史回顾-如何用向量表示词语? one hot vector 有序词典V,包括n个单词。 每一个单词用长度为n的向量表示。这个向量仅于单词在V词典中索引序号位置为1,其余位置为0。这是一种非常稀疏的向量。 缺点: 1.维度非常高。 2.这种向量无法表示词与词之间的关系,无法衡量相似度。 word2vec 用低维度密集向量表示单词,通常维数为100-300。 在训练过程中,要求计算机学习根据当前单词预测其周围单词。或根据周围单词预测当前单词。 模型收敛后,得到单词与向量映射表。 优点: 1.相比one hot维度变低,利于计算。 2.词向量可以表达词语关系:相同上下文环境的词,会具有相似的向量值。 3.无需人工标注,可以利用丰富的语料库自动抽取特征。 缺点: 1.无法区分近义词与反义词,它们会具有相似的向量。 2.单词和向量是一一对应关系,而实际上单词在不同文本环境下,会具有不同的含义,向量无法适应上下文而变换。如下两句,词朝阳会被用相同的向量表达。 我在朝阳上班。 这是个朝阳行业。 ELMo 论文点我 动态词向量技术,词向量不再用固定的映射表来表达。 ELMo训练出一个神经网络模型,它接受输入一个句子

GMAT阅读满分需要做什么?

只愿长相守 提交于 2019-12-02 18:54:32
GMAT阅读作为GMAT考试中的一个难点,想要获得满分并不容易。考生不仅要了解GMAT阅读的基本常识,还要掌握一些必备技巧。那GMAT阅读满分需要做什么呢,小编这就为大家介绍一下,希望对大家的GMAT阅读备考有帮助。 1. 了解GMAT阅读的基本常识GMAT阅读的文章是从一些学术论文演变而来,但又不是直接截取来用,而是ETS先搜集大量文章,然后在尽量保证原文信息不丢失的前提下根据GMAC的考试要求进行相应改写。 GMAT阅读是GMAT语文部分的主要内容,通常包含4篇文章。两篇长阅读,两篇短阅读。短篇阅读一般在200-250字;长篇文章一般在300-350字,共14道题左右。考生在备考前期一定要准确了解这些基本常识,然后为自己制定合理的备考计划,知己知彼才能马到成功。 2. 掌握GMAT阅读的满分技巧1. 词汇和句子的理解能力。 理解文章内容是做好GMAT阅读的基础,GMAT阅读部分主要考查考生对一篇陌生文章加工处理、获取相关信息的能力,考生要想GMAT阅读获得满分就必须提升自己的词汇积累和理解能力。   3. 掌握文章类型 。GMAT阅读的文章类型主要包括:自然科学、社会科学和商科管理类。虽然GMAT文章的题材广泛,学术高深,尤其是自然科学题材,但是它有很强的模式:典型的论证文章。因此,考生只要能准确把握文章类型就能在一定程度上保证答题的正确率。  4. 有效应对长难句。

基于统计模型的中文分词方法

情到浓时终转凉″ 提交于 2019-12-02 18:50:36
统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。 统计分词一般做如下两步操作: 1.建立统计语言模型(n-gram) 2.对句子进行单词划分,然后对划分结果做概率计算,获取概率最大的分词方式。这里就用到了统计学习算法,如隐马尔科夫模型(HMM),条件随机场(CRF)等 语言模型: 语言模型在信息检索,机器翻译,语音识别中承担着重要的任务。这种模型结构简单,直接,但同时也因为数据缺乏而必须采取平滑算法。这里主要介绍n元语言模型(n-gram)。 假设S表示长度为i,由(W1,W2,....,Wi)字序列组成的句子,则代表S的概率为: P(S) = P(W1,W2,...,Wi) = P(W1)*P(W2|W1)*P(W3|W2,W1)....P(Wi|W1,W2,...,Wi-1) 即每个字的出现都与他之前出现过的字有关,最后整个句子S的概率为这些字概率的乘积。但是这个计算量很大,所以在这里我们可以利用马尔科夫假设,即当前词只与最多前n-1个有限的词相关: 当n=1时,即出现在第i位上的词Wi独立于历史时,一元文法被记作uni-gram,一元语言模型可以记作: uni-gram 当n=2时,即出现在第i位上的词wi仅与它前面的一个历史词wi-1有关,二元文法模型被称为一阶马尔可夫链(Markov

Distant supervision for relation extraction without labeled data论文理解

杀马特。学长 韩版系。学妹 提交于 2019-12-02 14:58:14
Distant supervision for relation extraction without labeled data论文理解 论文作者:Mike Mintz, Steven Bills, Rion Snow, Dan Jurafsky 核心词汇:multiclass logistic regression classifier 多类逻辑回归分类器 named entity tagger 命名实体标记器 lexical 词汇的 syntactic 词法的 语义特征那里不是很明白 1、远程监督的思想 这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点,进而结合监督学习和Bootstrapping的优点,提出了用远程监督做关系抽取的算法。 远程监督算法有一个非常重要的假设: 对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。 基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法 。 具体来说,在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来。如果多个句子包含了两个特定实体

关系抽取 ----Distant supervision for relation extraction without labeled data

雨燕双飞 提交于 2019-12-02 03:05:35
(一) 远程监督的思想   这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点,进而结合监督学习和Bootstrapping的优点,提出了用远程监督做关系抽取的算法。   远程监督算法有一个非常重要的假设: 对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。 基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法 。   具体来说,在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来。如果多个句子包含了两个特定实体,而且这两个实体是Freebase中的实体对(对应有一种关系),那么基于远程监督的假设,认为这些句子都表达了这种关系。于是从这几个句子中提取文本特征,拼接成一个向量,作为这种关系的一个样本的特征向量,用于训练分类器。   论文中把Freebase的数据进行了处理,筛选出了94万个实体、102种关系和180万实体对。下面是实体对数量最多的23种关系。              关系种类相当于分类的类别,那么有102类;每种关系对应的所有实体对就是样本

励志的小句子

此生再无相见时 提交于 2019-12-01 12:22:02
最近很丧,但又不想放弃,所以有了这篇文章 当你决定了要向前迈进的那一刻, 你就已经踏出前进的一步了。 既然选择了远方,便只顾风雨兼程 来源: https://www.cnblogs.com/Mark-X/p/11685320.html