Abstract
关系元组由两个实体以及它们之间的关系组成,并且经常在非结构化文本中找到这样的元组。文本中可能存在多个关系元组,并且它们之间可能共享一个或两个实体。从句子中提取这样的关系元组是一项艰巨的任务,并且在元组之间共享实体或重叠实体会使其更具挑战性。本文中提出了两种使用编码器-解码器体系结构共同提取实体和关系的方法。提出了一种用于关系元组的表示方案,该方案使解码器能够像机器翻译模型一样一次生成一个单词,并且仍然可以找到句子中存在的所有元组,它们具有不同长度的完整实体名称并且具有重叠的实体。提出一种基于指针网络的解码方法,其中在每个时间步生成一个完整的元组。
Introduction
传统使用流水线方法,使用命名实体识别来识别句子中的实体,然后使用分类器查找它们之间的关系(或没有关系)。但是由于实体检测和关系分类的完全分离,这些模型错过了句子中存在的多个关系元组之间的交互作用。
本文三个主要挑战:(i)该模型能够将实体和关系提取在一起。 (ii)能够提取具有重叠实体的多个元组。 (iii)能够准确地提取一个具有全名的元组实体。为了解决这些挑战,提出了两种使用编码器-解码器体系结构的新颖方法。首先提出一种用于关系元组的新表示方案(表1),以便它可以用简单的方式表示具有重叠实体和不同长度实体的多个元组。采用编码器-解码器模型,其中解码器像机器翻译模型一样一次提取一个单词。在序列生成的最后,由于元组的独特表示,可以从单词序列中提取元组。尽管此模型执行得很好,但是一次生成一个单词对于此任务来说有点不自然。每个元组恰好具有两个实体和一个关系,并且每个实体在句子中显示为连续的文本范围。识别它们的最有效方法是在句子中找到它们的开始和结束位置。然后,使用五个元素来表示每个关系元组:两个实体的开始和结束位置以及它们之间的关系(请参见表1)。考虑到这一点,提出了一个基于指针网络的解码框架。该解码器由两个指针网络和一个识别它们之间关系的分类网络组成,该指针网络可以找到句子中两个实体的开始和结束位置。在解码的每个时间步,此解码器都提取整个关系元组,而不仅仅是单词。
本文的贡献如下:(1)提出了一种新的关系元组表示方法,使得一个编码器-解码器模型在每一步提取一个单词时,仍然可以从句子中找到多个实体重叠的元组和多个标记实体的元组,还提出了一种基于掩蔽的复制机制,只从源语句中提取实体。(2)提出在解码框架中使用指针网络进行修改,以使编码器-解码器模型更适合此任务。在每个时间步,此解码器都会提取整个关系元组,而不仅仅是单词。这个新的解码框架有助于加快训练过程,并使用更少的资源(GPU内存)。当从句子级元组提取转向文档级提取时,这将是一个重要因素。(3)对NYT数据集进行的实验表明,该方法明显优于所有以前的最新模型。
Task Description
关系元组由两个实体和一个关系组成。 这样的元组可以在句子中找到,其中实体是句子中的文本范围,并且关系来自预定义的集合R。这些元组可以在其中共享一个或两个实体。
- 无实体重叠(NEO):此类中的一个句子包含一个或多个元组,但它们不共享任何实体。
- 实体对重叠(EPO):此类中的一个句子有多个元组,并且至少两个元组以相同或相反的顺序共享两个实体。
- 单实体重叠(SEO):此类中的一个句子包含一个以上的元组,并且至少两个元组正好共享一个实体。
一个句子可以同时属于EPO和SEO类,任务是提取句子中存在的所有关系元组。
Encoder-Decoder Architecture
此任务中输入是单词序列,输出是一组关系元组。第一种方法中,表示每个元组的ententity1;实体2;关系,使用“;”作为分隔符来分隔元组各部分,多行元组使用“ |”分隔。使用这些特殊标记,可以用一种简单的方式表示具有重叠实体和不同长度实体的多个关系元组。在推理过程中,序列生成结束后,可以使用这些特殊标记轻松提取关系元组。由于采用了这种统一的表示方案,对实体,关系和特殊标记的处理类似,因此编码器和解码器之间使用了包含所有这些标记的共享词汇。输入句子包含每个关系的线索词,可以帮助生成关系标记。其次使用两个特殊标记,以便模型可以区分关系元组的开头和元组组件的开头。为了使用编码器-解码器模型从句子中提取关系元组,该模型必须生成实体标记,找到关系线索词并将其映射到关系标记,并在适当的时间生成特殊标记。
Embedding Layer & Encoder
创建一个单一词汇表V,该词表由源句标记、关系集R中的关系名称、特殊分隔符、目标序列开始标记(SOS)、目标序列结束标记(EOS)以及未知标记(UNK)。词级嵌入由两个部分组成:预训练词向量和基于字符嵌入的特征向量。使用单词嵌入层





Word-level Decoder & Copy Mechanism
目标序列T仅由标记y0; y1; ::::; ym的词嵌入向量表示,其中






解码器的投影层将解码器输出映射到整个词汇表。然而在推断期间,解码器可以从词汇表中预测在当前句子或关系集或特殊标记中不存在的标记。为了防止这种情况,在投影层上应用softmax时进行mask,屏蔽词汇表的所有单词,但不包括当前源句标记、关系标记、分隔符UNK和EOS标记。要从softmax中屏蔽(排除)某些单词,将
Pointer Network-Based Decoder
第二种方法使用开始和结束位置来识别句子中的实体。从单词词汇表中删除特殊标记和关系名称,并且单词嵌入仅在编码器侧与字符嵌入一起使用。在模型的解码器端使用附加的关系嵌入矩阵




Relation Tuple Extraction
在获得当前元组







然后将


Attention Modeling
针对词级解码模型使用三种不同的注意力机制,以获得源上下文向量
- Avg:上下文向量是通过平均编码的隐藏向量来获得的。
-
-
对于基于指针网络的解码模型使用single注意模型的三个变体。一使用在注意力机制中计算
,二使用
计算
,三使用
和
获得的两个注意向量进行级联来获得注意上下文向量。通过基于指针网络的解码模型,可以提供最佳性能。
Loss Funtion
来源:CSDN
作者:Sanshierli_
链接:https://blog.csdn.net/qq_40931181/article/details/103560618