文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)

为君一笑 提交于 2020-12-29 09:31:35

文章目录

 

0. 引言

摘要关系抽取是从纯文本中提取未知关系事实,并将其添加到知识图中,是自动构建大规模知识图的关键任务,下图是知识图谱的一个技术总览:
在这里插入图片描述
目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。如下图所示:
在这里插入图片描述
至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。那我们就看一看最新的工作是如何做的。





 

1. SCIREX: A Challenge Dataset for Document-Level Information Extraction(ACL2020)

在这里插入图片描述

1.1 摘要

从完整的文档中提取信息在许多领域都是一个重要的问题,但是大多数以前的工作都集中在识别句子或段落中的关系上。在文档级创建大规模信息提取数据集是一项挑战,因为它需要理解整个文档,以注释实体及其文档级关系,这些关系通常跨越句子甚至章节。在本文中,我们介绍了SCIREX,一个文档级的IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动和人工标注来标注数据集。我们开发了一个神经模型作为强基线,将以前最先进的IE模型扩展到文档级IE。对模型性能的分析显示了人类性能和当前基线之间的显著差距,这邀请社区使用我们的数据集作为开发文档级IE模型作为一个挑战。

1.2 动机

  1. 统的信息抽取(IE)数据集和方法主要关注一般新闻文本的句内关系。最近的工作开始研究短段落的完整IE模型和数据集的开发。虽然这些任务为IE模型提供了一个合理的测试平台,但大量的信息只能从分析完整的文档中收集。然而,在为长文档开发完整的IE数据集和模型方面没有做太多的工作。

  2. 创建用于文档级信息提取的数据集具有挑战性,因为它需要领域专业知识和相当大的注释工作来为多个IE任务全面注释一个完整的文档。除了实体之间的本地关系之外,它还需要识别超出句子甚至部分的文档级关系。图1显示了这种文档级别关系的一个例子。
    在这里插入图片描述
    上图是一些注释的实例:

entity mentions ( Dataset , Metric , Task , Method );
coreferences(indicated by arrows);
salient entities (bold);
N-ary relation (SQuaD, Machine Comprehension, BiDAF (ensemble), EM/F1) 只能通过跨段落聚合信息来提取


1.3 贡献

在本文中,我们介绍SCIREX,一个来自科学文档的信息提取综合数据集。我们的数据集中于将一篇科学文章的主要结果从原始文本识别为元组(数据集、度量、任务、方法)的任务。它由三个主要子任务组成,识别单个实体、它们的文档级关系以及预测它们在文档中的显著性(即,参与本文结果的实体,而不仅仅是,例如,在相关工作中提到的实体。我们数据集标注包括entities, their mentions, their coreferences, their document level relations。

为了克服大型文档的注释挑战,我们利用外部的科学知识库,同时执行自动和手动注释。自动注释阶段识别候选实体的mentions有特别高的召回率,然后由专家注释人员通过引用文章的文本和外部知识库来纠正这些提取出来的mentions。这个策略减少了为多个IE任务完全注释大型文档所需要的时间。

此外,我们引入了一个神经模型作为执行端到端任务的强大基线。我们的模型识别mentions,他们的显著性,他们的共指连接,然后,它将突出的提及聚类为实体,并识别文档级的关系。

实验还表明,我们的端到端文档级IE任务具有挑战性,其中最具挑战性的子任务是识别突出的实体,发现文档级关系的难度较小

本文的贡献如下:

  1. 论文的主要内容:我们介绍了SCIREX,一个评估IE任务的全面列表的数据集,包括跨长文档的n元关系。这是一个独特的设置,与以前的工作,侧重于短段落或单一的IE任务。

  2. 我们开发了一个基线模型,就我们所知,这是第一次尝试神经完整文档IE。我们的分析强调了需要更好的模型来克服我们的数据集带来的新挑战。我们邀请研究团体关注这一重要的、具有挑战性的任务。

我们使用CRF序列标记器,它可伸缩性很好。我们的模型还提取了显著实体簇之间的四元关系,这需要对文件有更全面的看法,而不是提取所有对实体提及之间的二元关系

1.4 数据集

1.4.1 问题定式

实体识别:我们的实体是方法、任务、度量或数据集类型的抽象对象,在科学文章中以文本的形式出现。我们将“mentions”(或span)定义为文本中实体的具体实例——这可以是实体的实际名称、缩写,等等。实体识别任务是识别“entity mentions”并根据其类型对其进行分类。

显著实体识别:现的实体并不同等重要。例如,相关工作部分中提到的任务没有文章中的主要任务重要。在我们的案例中,突出实体识别是指发现一个实体是否参与了文章评价。突出的数据集、指标、任务和方法是描述文章结果所需要的。在本文的其余部分,我们将使用“salient ”术语指属于关系元组的实体。

共指:指出在一份文档中对一个实体(或一个突出的实体)的一系列提及。

关系抽取:是一篇科学文章中提取实体之间无关联的任务。我们感兴趣的是发现类型实体(数据集、方法、度量和任务)之间的二元、三元和四元的关系。需要注意的是,这个四元关系不能被分割成多个二元关系,因为,例如,一个数据集可能有多个任务,而每个任务都有自己的度量,因此度量不能仅仅基于数据集或任务来决定。

1.4.2 数据集描述

文档级信息提取需要对整个文档有全局的理解,以便注释实体、它们的关系和它们的显著性。然而,注释一篇科学文章是费时的,需要专业的注释者。这一节解释了我们构建SCIREX数据集的方法。它结合了来自现有知识库的远程监督和噪声自动标记,从而提供了更简单的注释任务。这里可以看一下原论文相关部分,不再赘述。

1.5 模型

我们开发了一个神经模型,它以端到端方式共同执行文档级IE任务,如下图:
在这里插入图片描述
Document Representation
输入文档 D D D被表示为一个章节列表 [ s 1 , … , s N ] [s_1,…,s_N] [s1​,…,sN​]。我们分两个步骤对文档进行编码,分别是节级和文档级。我们使用SciBERT 在每个section上分别使用预先训练的上下文化标记编码,以获得该部分中标记的嵌入。然后将编码结果通过一层双向LSTM捕捉跨节依赖。


Mention Identification and Classification
给定token embedding,我们的模型应用序列标记器来识别提到的内容并对其类型进行分类。我们在单词的BERT-BiLSTM嵌入上一个CRF标记器,以预测提及范围 m j m_j mj​及其对应类型。

Mention Representation
提到嵌入是第一个标记嵌入 e j 1 e_{j1} ej1​,最后一个标记嵌入 e j n e_{jn} ejn​,以及提到所有嵌入的注意加权平均值的连接,嵌入通过附加的注意层来计算(Bahdanau et al., 2015)。我们将这些嵌入与其他特性连接起来——span在文档中的相对位置,一个指示符,显示包含提到的句子是否也包含一些标记词,如“实验”或“数据集”以及提到类型。

Salient Mention Classification
每个提到的mention分类为突出或不突出(即,它应该属于一个关系元组),通过传递它的跨度embedding,通过前馈层判断。

Pairwise Coreference Resolution
此组件与端到端模型分离。它将两跨span的特征串联起来,使用SciBERT将其嵌入,然后在[CLS]嵌入上使用一个线性分类层来计算成对的共参考分数 c i j c_{ij} cij​。

Mention clustering
给定跨度对 m i m_i mi​和 m j m_j mj​的列表,以及它们成对的共参照分数 c i j c_{ij} cij​,它们被分组到簇中,这些簇可以被认为代表一个单独的实体。我们为所有对生成一个共参考评分矩阵,并在其之上进行聚类层次聚类以得到实际的聚类

Salient Entity Cluster Identification
此步骤从上一步过滤出集群,并且仅为最终的关系任务保留突出的集群。为此,我们采用一种简单的方法,将突出的集群定义为至少有一次突出mention的集群。

Relation Extraction
给定上一步文档中标识的所有提到显著集群,我们现在的任务是确定其中哪些属于一个关系。这里我们描述四元关系的分类。

考虑这样一个候选关系(簇的4元组) R = ( C 1 , C 2 , C 3 , C 4 ) R = (C_1, C_2, C_3, C_4) R=(C1​,C2​,C3​,C4​)。我们将这个关系编码成一个单一的矢量,通过两步的步骤——构造一个section的嵌入,然后将它们聚合在一起来生成一个文档级别的嵌入。具体如下:
在这里插入图片描述
Training Procedure
mention identification, span saliency classification, and relation extraction 使用来自BERT + BiLSTM的基本文档和span表示并共同训练,每个子部分都在ground truth输入上进行训练。


注意,我们要求显著分类和关系提取独立于提到识别任务,因为这个任务的输出(基本上是提到文本的范围)是不可微的。该模型联合优化了三种损失,mention识别的负对数似然,显著性分类的二元交叉熵,以及提取关系的二元交叉熵,三种损失均加权。

1.6 实验

我们将我们的模型与DYGIE++ (Wadden et al., 2019)和DocTAET (Hou et al., 2019)在我们的SCIREX数据集的子任务和适用于任何地方的SCIERC数据集进行比较。作者认为DYGIE++为将来在SciREX数据集上提升共指识别的性能提供了一种端到端的途径。

在这里插入图片描述

表4总结了在SCIERC数据集上评估我们的模型和DYGIE++的结果。在识别方面,我们的模型性能有点差,这主要是因为SCIERC有重叠的实体,而像我们这样的基于crf的模型无法处理这些实体。对于识别共引用集群的任务,我们的表现明显比DYGIE++的端到端模型差。
在这里插入图片描述

端到端的预测:但由于前面步骤中错误的积累,它的端到端性能相当低。

在这里插入图片描述

通过人工误差分析,我们发现显著性聚类的识别是模型中问题最大的一步。在此设置中,我们运行端到端模型,但使用“gold cluster saliency”信息。不是使用我们的mention显著性得分过滤集群,我们只保留那些与至少一个gold集群有任何重叠的集群来过滤集群。这证实了我们的假设,即识别突出的集群是端到端系统性能的关键瓶颈。这也与显著性提到率识别的低绩效的组份结果一致



 

2. Reasoning with Latent Structure Refinement for Document-Level Relation Extraction(ACL 2020)

2.1 摘要

文档级关系提取需要在文档的多个句子中整合信息,并捕获句子间实体之间的复杂交互。然而,如何有效地将文献中的相关信息进行汇总,仍然是一个具有挑战性的研究问题。现有的方法基于语法树、从非结构化文本中的协同引用或启发式以对依赖项进行建模,来构建静态文档级图。不像以前的方法不能捕获丰富的非局部交互来进行推理,我们提出了一个新的模型,通过自动归纳潜在的文档级语义图来增强句子之间的关系推理。我们进一步开发了一种细化策略,使模型能够为多跳推理聚合递增的相关信息。具体来说,我们的模型在大规模文档级数据集(DocRED)上获得了59.05的F1得分,显著地改善了之前的结果,并且在CDR和GDA数据集上也产生了新的最先进的结果。此外,广泛的分析表明,该模型能够发现更准确的句子之间的关系

2.2 动机

  1. 现有研究侧重于预测句子中实体之间的关系。然而,实体之间有价值的关系信息,是通过在真实场景中跨句子边界的多次提及来表达的。
  2. 更具挑战性但更实用的扩展是文档级关系提取,系统需要理解多个句子,综合整个文档的相关信息,推断出实体之间的关系。

在这里插入图片描述
In order to infer the inter-sentence relation (i.e., country of citizenship) between Yulia Tymoshenko and Ukrainian, one first has to identify the fact that Lutsenko works with Yulia Tymoshenko. Next we identify that Lutsenko manages internal affairs, which is a Ukrainian authority. After incrementally connecting the evidence in the document and performing the step-by-step reasoning, we are able to infer that Yulia Tymoshenko is also a Ukrainian.

2.3 贡献

我们提出的模型将图结构视为隐变量,并以端到端方式引入它。我们的模型是基于结构化注意力建立的。利用矩阵树定理的一个变式,我们的模型能够生成特定于任务的依赖结构来捕获实体之间的非局部交互。我们进一步开发了一种迭代优化策略,使我们的模型能够基于上一次迭代动态地构建潜在结构,允许模型增量地捕获复杂的交互,以更好地进行多跳推理。

我们的贡献总结如下:

  1. 我们以端到端的方式为推理构造文档级图,而不依赖于协同引用或规则,它们可能并不总是产生最佳结构。通过迭代优化策略,我们的模型能够动态地构建一个潜在结构,以改进整个文档中的信息聚合。
  2. 我们进行定量和定性分析,以比较最先进的模型。我们证明了我们的模型能够利用一个多跳推理模块发现更准确的句子间关系。

2.4 方法论

提出了用于文档级关系提取任务的隐结构优化(LSR)模型。我们的LSR模型由三个组件组成:节点构造器、动态推理器和分类器。节点构造函数首先编码输入文档的每个句子,然后输出上下文表示。与句子中最短依赖路径上的提到和标记对应的表示被提取为节点。然后应用动态推理器根据所提取的节点生成文档级结构。基于隐结构上的信息传播更新节点的表示,并进行迭代细化。分类器使用节点的最终表示来计算分类分数。

2.4.1 Node Constructor

Context Encoding
给定一个文档 d d d,每个句子都被提供给上下文编码器,后者输出 d i d_i di​中每个单词的上下文化表示:
在这里插入图片描述
句子中每个token的特征表示通过连接两个方向的隐藏状态表示:
在这里插入图片描述
Node Extraction
我们为文档级图构造了三种类型的节点:提到节点、实体节点和元依赖路径(MDP)节点,如图所示:提及节点对应于每个句子中对实体的不同提及。实体节点的表示是按其被提及次数的平均值计算的。我们在句子中提到之间的最短依赖路径上使用token。最短依赖路径在句子级关系提取中得到了广泛的应用,它可以有效地利用相关信息而忽略不相关信息。与句子级抽取中每句只有两个实体不同,这里的每个句子可能涉及多次提及





在这里插入图片描述

2.4.2 Dynamic Reasoner

该推理机具有结构归纳和多跳推理两个模块,如图3所示。结构归纳模块用于学习文档级图的潜在结构。利用多跳推理模块对诱导的潜在结构进行推理,更新每个节点的表示。我们堆叠N个块,以便迭代地细化潜在的文档级图,以便更好地进行推理。
在这里插入图片描述
Structure Induction
我们的模型把图当作隐变量,并以端到端的方式导出它。我们使用基尔霍夫矩阵树定理的一个变体诱导潜在依赖结构。节点 i i i和节点 j j j的分数 s i j s_{ij} sij​计算为:
在这里插入图片描述
第 i i i个节点被选为该结构的根节点的非标准化概率:
在这里插入图片描述
我们计算了文档级图的每个依赖边的边际概率:
在这里插入图片描述
然后我们定义了拉普拉斯算子矩阵 L L L和它的变体 L 1 L^1 L1:
在这里插入图片描述
我们使用 a i j a_{ij} aij​表示第 i i i个节点和第 j j j个节点之间的依赖边的边际概率。
在这里插入图片描述
这里, A ∈ R n × n A∈R^{n×n} A∈Rn×n可以解释为文档级实体图的加权邻接矩阵。最后,我们可以将 A A A放入多跳推理模块,来更新隐藏结构中节点的表示。












Multi-hop Reasoning
我们的模型基于(GCNs) 进行推理:
在这里插入图片描述
我们使用到GCNs的dense connections,以便在大型文档级图上捕获更多的结构信息。在密集连接的帮助下,我们能够训练一个更深层的模型,允许捕获更丰富的局部和非局部信息,以学习更好的图表示。


Iterative Refinement(分层)
尽管结构化注意力能够自动诱导一个潜在结构,最近的研究成果表明,诱导结构相对较浅,可能无法建模文档级输入的复杂依赖关系。与之前的工作只归纳出潜在结构一次不同,我们根据更新的表示反复精炼文档级图,允许模型推断出一个信息更丰富的结构,超越了简单的父-子关系

我们堆叠了动态推理器的N个块,以归纳N次文档级结构。直观地说, 由于信息主要在相邻节点之间传播,使得推理机在早期迭代时形成了一种浅层结构。随着迭代优化,节点可以通过与更丰富的非本地信息节点交互而使得结构变得更加细化,归纳模块能够生成信息更丰富的结构。

2.4.3 Classifier

经过N次细化,我们得到了所有节点的表示。对于每个实体对 ( e i , e j ) (e_i,e_j) (ei​,ej​),我们使用双线性函数计算每个关系类型 r r r的概率为:
在这里插入图片描述

2.5 实验结果

静态文档级图可能无法捕获文档中的复杂交互。由LSR引起的动态隐结构捕获了更丰富的非局部相关性。LSR可以归纳出信息更丰富的文档级结构,以便更好地进行推理。
inter:如果来自同一文档的两个实体在同一句中没有提及,则实体对需要句间推理。大约45%的实体对需要对多个句子进行信息聚合。
Ign F1:表示不包括训练集和验证集/测试集共享的关系事实的F1得分

在这里插入图片描述

LSR与其他模型在句间设置上的f1得分差异往往大于句内设置上的差异。这些结果表明,LSR的优势主要来自句子间的关系事实,由我们的模型产生的潜在结构确实能够在一个文档的多个句子中综合信息。

在这里插入图片描述
我们用实体第二次世界大战来说明推理过程,我们这里的目标是预测实体对日本,第三次世界大战的关系。如图5所示,在LSR的第一次改进中,Word War II与几个具有较高注意分数的本地提及相互作用,例如,提及Lake F orce为0.30,它将被用作提及日本和二战之间的桥梁。在第二次细化中,日本、日本帝国军等几个非本地提及的注意分数分别从0.09到0.41和从0.17到0.37,表明在这一步信息是全局传播的。这样的句内和句间结构,可以将第三次世界大战的实体对hJapan的关系预测为“participant of”,如P1344所示。与LSR相比,AGGCN学习到的注意分值要均衡得多,说明该模型可能无法构建用于推理的信息结构,如第二头最高为0.27分,大部分分值接近0.11。



 

3. Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network(ACL2019)

3.1 摘要

句子间关系提取处理文档中大量复杂的语义关系,这些关系需要局部、非局部、句法和语义的依赖关系。现有的方法没有充分利用这种依赖关系。提出了一种新的句子间关系提取模型,该模型在文档级图上建立了带标记的边缘图卷积神经网络模型。该图利用句子间和句子内的各种依赖关系来获取局部和非局部依赖信息。为了预测实体对之间的关系,我们使用了使用双仿射成对评分的多实例学习。实验结果表明,我们的模型在两个生物化学数据集上取得了与最先进的神经模型相当的性能。我们的分析表明,图中的所有类型对句子间关系的提取都是有效的。

3.2 动机

句子关系不仅依赖于局部依赖,而且依赖于非局部依赖。依赖树常用来提取单句之内的语义关系的局部依赖。但是,这样的依赖关系对于句间的RE是不够的,因为不同的句子有不同的依赖树。
在这里插入图片描述

图1说明了催产素和低血压之间的情况。为了捕捉它们之间的关系,必须将催产素和Oxt这两个相互关联的实体联系起来。RNNs和CNNs,常用于句内RE ,对较长的序列无效,因此无法捕获这种非局部依赖关系。

3.3 贡献

我们提出了一种新的句子间IE模型,该模型在文档级图上构建带标记的边缘图CNN (GCNN)模型。图节点对应单词,边表示它们之间的局部和非局部依赖关系。文档级图的建立是单词连接组成的,单词连接是通过句法解析和序列信息产生的局部依赖、指代解析产生的非局部依赖以及其他语义依赖联系起来形成的。我们在实体节点表示上使用双仿射成对评分函数来推断实体之间的关系。

  1. 首先,我们提出了一种新的句子间IE模型。利用GCNN捕获局部和非局部依赖关系。
  2. 其次,将该模型应用于两个生物化学语料库,验证了该模型的有效性。
  3. 最后,我们开发了一个新颖的、远程监督的数据集。

3.4 模型

在这里插入图片描述
我们将句子间、文档级的重新任务制定为一个分类问题。 [ w 1 , w 2 , ⋅ ⋅ w n ] [w_1, w_2,··w_n] [w1​,w2​,⋅⋅wn​]为文档 t t t中的单词, e 1 e_1 e1​和 e 2 e_2 e2​为 t t t中感兴趣的实体对。关系提取模型以一个三元组 ( e 1 , e 2 , t ) (e_1, e_2, t) (e1​,e2​,t)作为输入,并返回这对关系的一个关系,包括“no relation”类别作为输出。我们假设 t t t中目标实体的关系可以根据它们的所有mentions来推断。因此,我们在 t t t上应用多实例学习来组合所有的mention层次对,并预测目标对的最终关系类别。

该模型以科学文章的整个摘要和两个目标实体作为输入,它们的提及都在输入层中。然后,它构造一个以单词为节点的图结构,以及对应于局部和非局部依赖的标记边。接下来,利用层叠的 G C N N GCNN GCNN层对图结构进行编码,并利用MIL 聚合所有的mention对表示对目标实体之间的关系进行分类。

3.4.1 Input Layer

在输入层中,我们将每个单词i及其与第一和第二目标实体的相对位置分别映射为实值向量 w i w_i wi​、 d i 1 d^1_i di1​、 d i 2 d^2_i di2​。由于实体可以有多个mentions,我们从最近的目标实体mentions计算单词的相对位置。对于每个单词 i i i,我们将单词和位置表示连接成一个输入表示, x i = [ w i ; d i 1 ; d i 2 ] x_i= [w_i;d^1_i;d^2_i] xi​=[wi​;di1​;di2​]。

3.4.2 Graph Construction

为了给整个摘要构建文档级图,我们使用以下类别的句间和句内依赖边,如图2中以不同的颜色所示。
Syntactic dependency edge: 句子的句法结构为语法内部RE提供了有用的信息。因此,我们在每个句子的词语之间使用标记的句法依赖边,通过将每个句法依赖标签视为不同的边缘类型。

Coreference edge:由于共指是局部依赖和非局部依赖的重要指标,我们使用共指类型边连接文档中的共指对。

Adjacent sentence edge: 对于相邻句子之间的非局部依赖,我们使用相邻句子边将一个句子的句法根与前一个句子和下一个句子的根连接起来。

Adjacent word edge:为了保持句子中单词之间的顺序信息,我们使用相邻单词类型边将每个单词与其前一个和下一个单词连接起来。

Self-node edge: GCNN只根据它的邻居节点及其边缘类型来学习节点表示。因此,为了将节点信息本身包含到表示中,我们在图的所有节点上形成了self node类型的边。

3.4.3 GCNN Layer

我们使用GCNN计算每个输入词 i i i的表示,在构建的文档图上。GCNN是用于图编码的CNN的高级版本,它学习图节点的语义表示,同时保留其结构信息。为了学习特定边缘类型的表示,我们使用带标记的边缘GCNN,它为每种边缘类型保留单独的参数。GCNN迭代更新每个输入词i的表示如下:
在这里插入图片描述

我们堆叠K个GCNN块来积累来自远处邻近节点的信息,并使用edge-wise门控来控制来自邻近节点的信息

3.4.4 MIL-based Relation Classification

由于每个目标实体在一个文档中可能有多次提及,我们采用了基于多实例学习(MIL)的分类方案,使用双仿射成对评分来聚合所有目标提及对的预测。如图2所示,首先使用两层前馈神经网络(FFNN)将每个单词i投影到两个独立的潜在空间中,对应于目标对的第一个(头)或第二个(尾)参数。
在这里插入图片描述
然后通过双仿射层生成mention-level两两置信分值,进行聚合全部mention得到实体级两两置信分值。
在这里插入图片描述


3.5 实验结果

我们在表2中显示了CDR和CHR数据集的模型结果。
在这里插入图片描述



 

4. Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs(EMNLP 2019)

4.1 摘要

文档级关系提取是一个复杂的人工过程,需要逻辑推理来提取文本中命名实体之间的关系。现有的方法使用基于图形的神经模型,以单词作为节点,边作为节点之间的关系,对句子之间的关系进行编码。这些模型是基于节点的,也就是说,它们仅基于两个目标节点表示形成对表示。但是,通过节点之间形成路径的唯一边缘表示可以更好地表达实体关系。因此,我们提出了一个面向边缘的图神经模型用于文档级关系提取。该模型利用不同类型的节点和边来创建文档级图。通过对图边的推理机制,可以在内部使用多实例学习来学习句子内和句子间的关系。在化学疾病和遗传疾病相关的两个文献级生物医学数据集上进行的实验表明,提出的面向边缘的方法是有用的

4.2 动机

  1. 在真实场景中,大量的关系是通过句子表达的。识别这些关系的任务称为句间关系RE。在文档级别的任务中,每个实体通常使用相同的短语或别名重复出现,这些短语或别名的出现通常被命名为mentions,并被视为该实体的实例。不同句子中目标实体的多次mention有助于识别句子间关系,因为这些关系可能依赖于它们与同一文档中其他实体mention的交互。在这里插入图片描述
  2. 传统的图模型将单词解释为节点,将它们之间的连接解释为边。它们通常通过在训练期间更新表示是在节点上执行的。然而,两个实体之间的关系依赖于不同的上下文。因此,它可以用对这对实体的唯一边连接更好地表达。解决这个问题的一种直接方法是创建基于图形的模型,这种模型依赖于边表示,而不是集中于节点表示,节点表示在多个实体对之间共享。

4.3 贡献

我们构造了具有异构类型的节点和边的文档图,以更好地捕获节点之间的不同依赖关系。在所提出的图中,节点对应的是实体、提到的内容或句子,而不是单词。我们基于简单的启发式规则连接不同的节点,并为连接节点生成不同的边表示。为了实现我们的目标,我们将模型设计为面向边,在某种意义上,它学习边表示(图节点之间),而不是节点表示。图边上的迭代算法用于以边表示的形式对节点之间的依赖进行建模。利用这些边预测句子内和句子间的实体关系。我们的贡献可以总结如下:

  1. 提出了一种新的面向边的文档级关系提取图神经模型。该模型不同于现有的图模型,因为它关注于构造唯一的节点和边,将信息编码到边表示而不是节点表示中。
  2. 提出的模型独立于语法依赖工具,可以在手工注释的文档级化学疾病交互数据集上实现最先进的性能。
  3. 对模型组件的分析表明,文档级图可以有效地编码文档级依赖关系。

4.4 模型

**注意提出的方法利用多实例学习时,mention-level注释可用。**如图2所示,提出的模型由四层组成: sentence encoding,graph construction,inference and classification layers.

模型接收具有标识的概念级实体及其文本mention的文档作为输入。接下来,构造具有多种类型节点和边的文档级图。在图的边上应用一种推理算法来生成概念级对表示。最后一层,将目标概念-实体节点之间的边表示划分为关系类别。

在这里插入图片描述

注释包括概念级实体(具有指定的KB id),以及每个实体在相同的别名短语下多次出现,即实体mentions。我们考虑mentions与给定概念实体的关联

任务的目标是一个带注释的文档,以标识该文档中所有相关的概念级对。在这项工作中,我们将概念级注释称为实体,将mention级注释称为提及。

4.4.1 Sentence Encoding Layer

首先,将输入文档句子中的每个单词转化为密集向量表示,即一个嵌入的单词。每个句子的向量化词被输入双向LSTM网络(BiLSTM) 。编码器的输出结果为输入句子中的每个单词提供上下文化的表示。

4.4.2 Node construction

来自编码器的上下文化的字表示用于构造文档级图结构。图层由节点构建层和边构建层两个子层组成。我们在第一个子层中组成图节点的表示,在第二个子层中组成边的表示。

EoG中的节点分为三类:
提及节点M:实体提及(Entity mention),表示输入文档中实体的不同提及,包括实体的简称,指代词等等。提及节点的编码采用实体提及词向量的hidden。

实体节点E:实体节点代表独特的实体概念。实体节点的编码采用实体的所有提及向量的平均值。

句子节点S:句子节点对应句子。句子节点为句子中所有单词表示的平均值。

4.4.3 Edge construction

EoG中有三种类型的节点,所以不同节点间相连接就有6种不同类型的边(不考虑边的指向),分别是MM、ME、MS、ES、SS、EE。其中ME、MS、ES三种边的表达采用两节点向量的拼接,MM边则融入了距离信息和上下文信息,SS边也融入了句子间的距离向量。
Mention-Mention (MM)
在一个句子中提及的共现可能是一个弱的指示互动。因此,我们只在对应的提及出现在同一个句子中时,才创建边。
在这里插入图片描述
我们为这些对生成上下文表示,以便编码本地的、以对为中心的信息。我们使用注意机制来衡量句子中其他单词对被提及的重要性:
在这里插入图片描述




Mention-Sentence (MS)
仅当提及存在于句子中时,提及到句子的节点才被连接起来。它们的初始边表示被构造为提到节点和句子节点的连接:
在这里插入图片描述

Mention-Entity (ME)
如果提及与实体相关联,我们将提及节点连接到实体节点:
在这里插入图片描述

Sentence-Sentence (SS)
每个句子节点都和其他的句子节点两两相连,SS边的表示由两节点的表示 n s i n_{si} nsi​以及 n s j n_{sj} nsj​,还有它们之间距离表示 d s i , s j d_{s_i,s_j} dsi​,sj​​ 拼接而成。
在这里插入图片描述

Entity-Sentence (ES)
为了直接建模实体到句子的关联,如果在这个句子中至少有一次提到实体,我们将实体节点连接到句子节点。
在这里插入图片描述

为了得到等维的边表示,我们对不同的边表示使用不同的线性缩减层:
在这里插入图片描述

4.4.4 Inference Layer

我们使用一种迭代算法来生成图中不同节点之间的边,以及更新现有的边。我们只使用第2.3.2节中描述的边来初始化图,这意味着没有直接的实体到实体(EE)边。我们只能通过表示节点之间的路径来生成EE边表示。这意味着实体可以通过最小长度路径相关联。

两步推理机制,对图中节点和边之间的交互进行编码,从而对EE关联进行建模。

在第一步,我们的目标是使用中间节点k在两个节点 i i i和 j j j之间生成一条路径。因此,我们结合了连续的两条边 e i k e_{ik} eik​和 e k j e_{kj} ekj​的表示,可以是三种节点类型E、M或S中的任意一种,没有邻接的中间节点被忽略:

在这里插入图片描述

第二步,用上一步得到的原始(短)边表示和新的(长)边表示进行聚合,如下所示:
在这里插入图片描述
这两个步骤重复N次,迭代次数与边缘表示的最终长度相关。经过N次迭代,边的长度将达到2N。

4.4.5 Classification Layer

经过上一步的推理过程之后,图中的信息经过不断循环流动,实体之间的信息充分交互,最后使用softmax分类器进行关系分类:
在这里插入图片描述

4.5 实验结果

在这里插入图片描述



 

5. Document-Level N-ary Relation Extraction with Multiscale Representation Learning (NAACL 2019)

5.1 摘要

大多数信息提取方法都侧重于在单个句子中表达的二元关系。然而,在某些领域,n元关系的需求很大(例如,精确肿瘤学中的药物基因相互作用)。这种关系往往涉及到文档中相隔很远的实体提及,而现有的跨句关系提取工作一般局限于小的文本跨度(如三句连续句),严重限制了召回。在本文中,我们提出了一种新的多尺度神经结构加粗样式用于文档级n元关系的提取。我们的系统结合了从贯穿整个文档和子关系层次结构的各种文本中学习到的表示。将系统的视野扩大到整个文档,可以最大限度地实现潜在的召回。此外,通过整合整个文档的弱信号,将多尺度建模提高了精度。

5.2 动机

先前的研究已经在句子级二元关系提取方面取得了很大进展。然而,将提取推广到n元关系提出了新的挑战。高阶关系通常涉及到文档中很远的实体提及。最近的n元关系提取工作已经开始探索跨句提取,但范围仍然局限于较短的文本跨度(例如连续三句话),即使一份文件可能包含数百句话和数万词。

在这里插入图片描述

5.3 贡献

在本文中,我们提出了一种新的多尺度神经结构用于文档级n元关系的提取。通过将提取范围扩展到整个文档,而不是将关系候选对象限制为在短文本范围内同时出现的实体,我们确保了最大的潜在召回。为了解决文档级提取中随之而来的困难,比如低精度,我们引入多尺度学习,它结合了不同尺度的文本跨度和不同子关系的学习表示

  1. 首先,我们采用以实体为中心的公式,对文档中出现的每个实体元组(进行单一预测,和以往的mention元组预测不同。
  2. 其次,对于每个候选元组,前面的方法通常将包含提到内容的连续文本范围作为输入。对于文档级提取,生成的文本范围可能会变得非常大,尽管其中大部分与所关心的关系无关。相反,我们允许由包含给定实体提及的多个话语单位(例如句子或段落)组成的不连续输入。
  3. 通过在我们的建模中包含子关系,我们可以预测n元关系,即使所有n个实体从不同时出现在同一个话语单元中。

5.4 模型(Multiscale Representation Learning)

给定一个文本 T T T和实体 E 1 , E 2 . . . , E n E_1,E_2...,E_n E1​,E2​...,En​的文档,当这些实体在同一个话语单元中同时出现时,我们首先为它们的组构建mention-level表示。然后我们在整个文档中聚合这些表示,为实体的每个子集生成实体级表示。最后,我们预测基于这些实体级表示的串联的关系。这些步骤如图所示。

在这里插入图片描述

5.4.1 Mention-level Representation

对于文章中的没一段话,我们都使用双向LSTM或者Transformer来进行编码。然后用Max-pooling将每个实体的mention给保留信息。

5.4.2 Entity-level Representation

将不同段落对应的同样的(段落mention级别)关系特征给拼接起来,用来去表征(文章实体级别)的特征。

5.4.3 Sub-relations

对于高阶关系,它们不太可能被完全包含在一个话语单元中。通常关系可以被分解为实体子集上的子关系,每个子关系更有可能被表达在一个话语单元中。这也促使我们为子关系构建实体级表示。每个实体子集的大小至少为2(本论文图示为3元关系,对应的是3+1)。

5.4.4 Relation Prediction

为了做出最终的预测,我们首先连接所有实体级表示。连接得到的表示是由一个两层前馈神经网络,然后softmax函数预测关系类型。

5.5 实验结果

在这里插入图片描述


 


 

6. Global-to-Local Neural Networks for Document-Level Relation Extraction (EMNLP2020)

6.1 摘要

关系抽取(RE)的目的是识别文本中命名实体之间的语义关系。近年来,它已经上升到文档级别,这需要对实体进行复杂的推理,通过整个文档中提及。在本文中,我们提出了一种新的文档级重建模型,通过对文档信息进行全局和局部表示以及上下文关系表示的编码。实体全局表示对文档中所有实体的语义信息进行建模,实体局部表示对多次提及特定实体的上下文信息进行聚合,上下文关系表示对其他关系的主题信息进行编码。实验结果表明,该模型在文档级RE的两个公共数据集上取得了优异的性能,尤其对远距离实体和多次mention实体之间的关系提取效果显著。

6.2 动机

与句子级RE相比,文档级RE需要更复杂的推理,例如逻辑推理、共指推理和常识推理。一个文档通常包含许多实体,有些实体在别名的同一短语下多次提到。为了识别不同句子中出现的实体之间的关系,文档级重构必须能够对多个实体之间的复杂交互进行建模,并综合多次提及的上下文信息。
在这里插入图片描述

6.3 贡献

应对上述的局限性,我们提出一个新的文档级图神经网络模型。我们的核心思想是充分利用文档语义和通过学习涉及实体的从粗到细粒度表示以及其他上下文关系预测关系。为实现这一目标,我们应对以下三个挑战:

  1. 首先,如何为文档的复杂语义建模?我们使用预先训练好的语言模型BERT 来捕获语义特征和常识知识,并构建一个带有启发式规则的异构图来建模文档中所有提及、实体和句子之间的复杂交互。
  2. 其次,如何有效地学习实体表示?我们设计了一个全局到局部的神经网络来编码粗粒度和细粒度的实体语义信息。具体来说,我们通过在创建的异构图上使用R-GCN 来学习实体的全局表示,通过在多头注意下聚合特定实体的多次提及来学习实体的局部表示。
  3. 第三,如何利用其他关系的影响?除了目标关系表示,其他关系表示文档的主题信息。我们通过学习自我注意的上下文关系表征来做出最终的关系预测。

总之,我们的主要贡献有两方面:

  1. 我们提出了一种新的文档级RE模型,称为GLRE,用于预测实体之间的关系,它综合了实体的全局表示和实体的局部表示和上下文关系的表示。
  2. 我们在两个公共文档级RE数据集上进行了广泛的实验。我们的结果表明,我们模型的优势。我们的详细分析进一步表明了该算法在提取距离较远的实体之间的关系和多次提及的实体之间的关系方面的优势。

6.4 模型

我们将文档级RE建模为一个分类问题。给定一个标注了实体及其对应文本的mentions,文档级RE的目标是识别文档中所有实体对的关系

下图描述了我们名为GLRE的模型的体系结构。它接收整个注释文档作为输入。首先,在(a)编码层中,它使用预先训练好的语言模型如BERT对文档进行编码。然后,在(b)全局表示层中,构建具有不同节点和边类型的全局异构图,并使用堆叠的R-GCN对图进行编码,以捕获实体全局表示。接下来,在局部©表示层,它聚合多个提到具体的实体mentions使用多头关获得局部实体表示。最后,在(d)分类器层中,结合自注意得到的上下文关系表示进行关系预测。

在这里插入图片描述

6.4.1 Encoding Layer

在这里插入图片描述

受BERT输入长度的限制,我们以短段落的形式顺序编码一个长文档。

6.4.2 Global Representation Layer

在前人的启发下,我们基于 H H H构造了一个全局异构图,使用不同类型的节点和边来捕获不同的依赖关系(例如,共现依赖关系、共指照依赖关系和顺序依赖关系)。具体来说,有三种类型的节点:
mention nodes:一个mention节点的表示是通过对包含的词的表示进行平均来定义的。
Entity nodes:实体节点的表示是对它们所引用的提及节点的表示求平均以及加入节点类型表示。
Sentence nodes:与mention nodes类似,求平均即可。


五种类型的边
•Mention-mention边:我们为同一个句子中的任意两个提到节点添加一条边。
•Mention-entity边缘:如果提及指向实体,我们在提及节点和实体节点之间添加一条边。
•Mention-sentence边缘:如果提述出现在句子中,我们在提述节点和句子节点之间添加一条边。
•Entity-sentence边缘。如果句子中至少有一次提到实体,我们就在实体节点和句子节点之间创建一条边。
•Sentence-sentence边缘。我们连接所有的句子节点来建模非顺序的信息。




最后,我们使用一个 L L L层堆叠的R-GCN 来对全局异构图进行卷积。与GCN不同,RGCN考虑了各种类型的边,从而能够更好地建模多关系图。

在这里插入图片描述
我们将图卷积后的实体节点表示称为实体全局表示,在整个文档中对实体的语义信息进行编码。我们用 e g l o e^{glo} eglo表示一个实体全局表示。

6.4.3 Local Representation Layer

我们通过聚合带有多头注意的相关提及表示来学习针对特定实体对的实体局部表示。“local”可以从两个角度理解:(1)它聚合了来自编码层的原始提及信息。(ii)对于不同的实体对,每个实体将有多个不同的局部表示即对应实体。然而,只有一个实体全局表示

在这里插入图片描述
在本文中, Q Q Q与实体全局表示有关, K K K与图卷积前的初始句子节点表示有关(即R-GCN中句子节点的输入特征), V V V与初始提及节点表示有关。具体来说,给定一个实体对( e a , e b e_a, e_b ea​,eb​),我们定义其局部表示如下:
在这里插入图片描述
其中LN(·)表示层归一化,注意句子集合是每个提到节点所处的句子节点集。


6.4.4 Classifier Layer

我们首先将实体全局表示、实体局部表示和相对距离表示连接起来,生成实体最终表示:
在这里插入图片描述
表示的目标关系:
在这里插入图片描述
此外,文档中的所有关系都隐含着文档的主题信息,如电影中经常出现的“导演”和“人物”。反过来,主题信息意味着可能的关系。一些关系在相似的话题下很可能会同时发生,而在不同的话题下则不会。因此,我们使用self-attention 来捕获上下文关系表示,从而揭示文档的主题信息:
在这里插入图片描述
最后,利用前馈神经网络(FFNN)对目标关系表示 o r o_r or​和上下文关系表示 o c o_c oc​进行预测。此外,考虑到一个实体对可以包含多种关系,多分类问题转化为多二元分类问题
在这里插入图片描述
我们对损失函数的定义如下:
在这里插入图片描述








6.5 实验结果

在这里插入图片描述
在这里插入图片描述




 





7. Fine-tune Bert for DocRED with Two-step Process (arxiv 2019)

7.1 摘要

多实体之间的关系建模近年来受到越来越多的关注,为了加快文档级关系提取的研究,我们收集了一种新的数据集——DocRED。此任务的当前基线使用BiLSTM对整个文档进行编码,并从头开始训练。我们认为,这样简单的基线不足以建模实体之间复杂的交互。在本文中,我们进一步应用一个预先训练好的语言模型(BERT)来为这项任务提供一个更强的基线。我们还发现,分阶段解决该任务可以进一步提高性能。第一步是预测两个实体是否有关系,第二步是预测具体的关系

7.2 动机

  1. 最近发布了大型文档级关系抽取数据集DocRED ,要求模型预测文档中每一对实体的关系。这个设置更具挑战性,因为需要找到跨多个句子表达的大量关系事实,并且需要对实体之间的复杂交互进行建模。
  2. 个预先训练好的语言模型,如BERT ,可以进一步提高性能,因为它已经捕获了重要的语言特征,并可能捕获一些常识知识。

7.3 贡献

在本文中,我们使用BERT对文档进行编码。利用双线性层预测实体对之间的关系。我们使用DocRED数据集中的注释数据对整个模型进行微调,这将F1得分提高了约2%。我们还发现,通过两步流程对文档级关系提取建模可以进一步提高性能。第一步是预测一对实体是否有关系。第二步是预测给定实体对的具体关系。请注意,我们在第二步中使用的模型是使用在DocRED中注释了关系的对进行训练的。

7.4 模型

在这里插入图片描述

7.4.1 BERT model

我们使用BERT对文档进行编码:
在这里插入图片描述
我们可以得到嵌入 [ h e 1 , h e 2 , ⋅ ⋅ , h e m ] [h_{e1}, h_{e2},··,h_{em}] [he1​,he2​,⋅⋅,hem​]然后对于每对实体 ( e i , e j ) (e_i, e_j) (ei​,ej​),我们可以使用双线性层来预测其关系:

在这里插入图片描述

7.4.2 Two-step Training Process

在DocRED数据集中,大多数实体对没有关系,这导致了很大的标签不平衡,即大多数实体对属于N/ A关系。为了缓解这个问题,我们使用了两个步骤的训练过程。在第一步中,我们只确定给定的实体对之间是否存在关系,即将问题简化为二值分类问题。我们在上面提到的这个步骤中使用BERT,其中使用所有带注释的数据来训练模型。采用子抽样方法平衡每批中的关系对和N/A对。

在第二步中,我们学习一个模型来识别给定的一对实体之间的特定关系。模型结构与第一步中的BERT模型相同。区别在于训练数据和标签:我们只使用这些关系事实(即实体对与关系)来训练模型,使模型能够学会区分这些不同的关系。根据经验,我们发现第二步相对简单,准确率达到90%左右。问题的瓶颈在于第一步,即区分两者之间是否存在联系。

在两步训练之后,测试过程就很简单了。对于给定的一对实体,首先将第一步所建立的模型应用于预测它们之间是否有关系。如果预测到一个关系,则应用第二步的模型来预测一个特定的关系。

7.5 实验结果

在这里插入图片描述



 

8. HIN: Hierarchical Inference Network for Document-Level Relation Extraction (PAKDD2020)

8.1 摘要

文档级的RE要求对多个句子进行阅读、推断和聚合。在我们看来,文档级RE需要利用实体级、句子级和文档级的多粒度推理信息。因此,如何获取和聚合不同粒度的推理信息对文档级RE来说是一个挑战,这是以往工作中没有考虑到的。为了充分利用实体层、句子层和文档层的丰富信息,本文提出了一种层次推理网络。对多子空间中的目标实体对应用平移约束和双线性变换得到实体级推理信息。接下来,我们对实体级信息和句子表示之间的推理建模,以获得句子级推理信息。最后,采用层次聚合的方法获取文档级推理信息。这样,我们的模型可以有效地从这三种不同的粒度中聚合推理信息。实验结果表明,该方法在大规模DocRED数据集上取得了较好的性能。我们还演示了使用BERT表示可以大幅度提高性能。

8.2 动机

虽然之前的工作取得了巨大的成功,但是在实践中,句子层次的RE受到了严重的限制:大量的关系事实是用多个句子来表达的。以图1为例,为了确定关系的事实,为了提取这些关系事实,有必要在多个句子中进行推断和聚合。显然,大多数传统的句子层次重构模型往往不能将提取概括到这种情况下。为了将RE从句子级向前移动到文档级,人们做了很多努力,但是以前的方法大多只使用实体级信息,这是不够的。因此,文档级RE还存在一些深层次的问题

在这里插入图片描述

8.3 贡献

技术上看,文档级RE面临两个主要挑战:(1)如何获取不同粒度的推理信息;(2)如何将这些不同粒度的推断信息进行聚合并做出最终预测。

综上所述,我们做了以下几点贡献:

  1. 本文提出了一种用于文档级RE的层次推理网络(HIN),它能够将信息从实体级聚合到句子级,再聚合到文档级。
  2. 我们对DocRED数据集进行了全面的评估。结果表明,我们的模型达到了最先进的性能。我们进一步证明,使用BERT表示法进一步大大提高了性能。
  3. 我们分析了我们的模型在不同支持句数量下的有效性,实验结果表明,当支持句数量较大时,我们的模型比以前的工作表现更好。

8.4 模型

在这里插入图片描述

8.4.1 Entity-Level Inference Module

为了表示每个单词在其上下文中的位置,我们用双向LSTM将文档编码为一个隐藏状态向量序列:
在这里插入图片描述
考虑到一个实体可能在一个文档中被多次提及,且一次提及也可能包含不止一个单词,我们用平均来表示实体:
在这里插入图片描述
我们使用不同的可学习投影矩阵将实体投影到K个子空间:



在这里插入图片描述
我们定义如下公式为第k个潜在空间中的实体级推理表示:
在这里插入图片描述
我们认为,两个目标实体之间的相对距离可以帮助我们更好地判断它们之间的关系。在经验上,我们使用两个实体之间的相对距离作为两个目标实体之间的相对距离。最后,将不同潜在空间中所有实体级推理表示和相对距离嵌入输入前馈神经网络(FFNN),形成最终的实体级推理信息:
在这里插入图片描述



8.4.2 Hierarchical Document-Level Inference Module

Sentence-Level Inference
该句子被送入一个BiLSTM编码器:
在这里插入图片描述
由于句子中不同的词具有不同的信息性,因此我们引入了注意机制,使我们的模型能够有选择地为信息性词分配较高的权重,而为其他词分配较低的权重。
在这里插入图片描述
我们可以得到第 j j j个句子的句子级推理表示 I s j I_{sj} Isj​:
在这里插入图片描述





Document-Level Inference

为了在整个文档级推理表示中区分关键的句子级推理信息,再次使用了注意机制。我们在句子级推理向量( I s I_s Is​)上构建一个BiLSTM:
在这里插入图片描述

8.4.3 Prediction Layer

为了更好地集成不同粒度的推理信息,我们将实体级推理表示 I e I_e Ie​和文档级推理表示 I d I_d Id​合并在一起,形成最终的推理表示。由于一个实体对之间通常存在多个保持关系,我们使用带有sigmoid函数来计算每个关系的概率:
在这里插入图片描述

对于给定的文档,我们根据可信度对预测结果进行排序,并根据dev_set上的F1得分从上到下遍历该列表,选择与最大F1对应的概率值作为阈值选取。此阈值用于控制在测试集中提取的关系事实的数量。

8.5 实验结果

在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!