「论文翻译」NeoDTI: neural integration of neighbor information from a HeteroN for discovering new DTIs

余生长醉 提交于 2020-02-01 09:08:41

Bioinformaties 2018 (B类)

Abstract

Motivation: 在计算机上准确预测药物-靶标相互作用(DTI)可以指导药物发现过程,从而促进药物开发。 采用系统生物学观点的DTI预测计算方法通常采用以下原理:药物和靶标的特性可以通过其在生物网络中的功能角色来表征。
Results:受信息传递和聚合技术的最新发展的启发,这些技术可以使卷积神经网络通用化以挖掘大规模图数据并大大提高许多与网络相关的预测任务的性能,我们开发了一种新的非线性端到端学习模型,称为NeoDTI,可整合来自异构网络数据的各种信息,并自动学习保留药物和靶标的拓扑结构表示,以促进DTI预测。相对于其他最新的DTI预测方法以及数种新颖的预测DTI有了实质性的预测性能改进,并且有先前研究的证据支持,这证明了NeoDTI的超强预测能力。此外,NeoDTI可以抵抗多种选择的超参数,并准备整合更多与药物和靶标相关的信息(例如化合物-蛋白质结合亲和力数据)。所有这些结果表明NeoDTI可以为药物开发和药物重新定位提供强大而强大的工具。

Introduction

2 Materials and methods

2.1 Problem formulation

NeoDTI从与药物和靶标相关的异质网络中预测未知的DTI,其中药物,靶标和其他对象表示为节点,而DTI和其他交互作用或关联表示为边。 我们首先介绍异质网络(HN)的定义。

定义1(异质网络).异质网络定义为有向图(或无向图)G=(V,E)G=(V, E); 其中节点集VV中的每个节点vv都属于对象类型集合OO中的对象类型,而边集EV×V×RE \subset V \times V \times R中的每个边ee都属于关系类型集RR中的关系类型 。

在我们的框架中用于构造异构网络的数据集(另请参见第3.1节)包括对象类型集O = {drug, target, side-effect, disease}和关系类型集R = {drug-structure-similarity, drug-side-effect-association, drug-protein-interaction, drug-drug-interaction, drug-disease-association, protein-sequence-similarity, protein-drug-interaction, protein-disease-association, protein-protein-interaction, disease-protein-association, disease-drug-association, side-effect-drug-association}在我们当前的框架中,每个节点仅属于一个对象类型,尽管可以相对容易地扩展到多对象类型的映射场景。 此外,所有边缘均为无方向且非负加权。 同样,相同的两个节点可以通过多个边链接.例如, 两种药物可以同时通过drug-drug-interaction的边和drug-structure-similarity边相连。

2.2 The workflow of NeoDTI

NeoDTI包括以下三个主要步骤:

  1. 邻居信息聚合
  2. 更新节点嵌入
  3. 节点嵌入的拓扑保存学习

通过步骤1和2,给定异质网络中的每个节点通过将其邻域信息与其自身的特征进行集成来生成新的特征表示。通过步骤3,我们强制将节点嵌入进行拓扑保存这对于提取单个节点的拓扑特征以进行准确的DTI预测很有用。 接下来,我们将介绍这三个步骤的数学公式。

  • 定义2(邻居信息聚合).
    给一个异质网络GG, 一个初始化节点嵌入函数f0:VRdf^{0}: V \rightarrow \mathbb{R}^{d},将每个节点vVv \in V映射到其dd维向量表示f0(v)f^{0}(v)和边权重映射函数s:ERs: E \rightarrow \mathbb{R}, 将每个边eEe \in E映射到其边权重s(e)s(e), 节点vv的邻居信息聚集定义为:
    在这里插入图片描述
    其中Nr(v)={u,uV,uv,(u,v,r)E}N_{r}(v)=\{u, u \in V, u \neq v,(u, v, r) \in E\}表示通过类型rRr \in R的边连接到vVv \in V的相邻节点的集合。σ()\sigma(\cdot)代表通过权重WrRd×dW_{r} \in \mathbb{R}^{d \times d}参数化的单层神经网络上的非线性激活函数。偏差brRdb_{r} \in \mathbb{R}^{d}Mv,r=uNr(v),e=(u,v,r)s(e)M_{v, r}=\sum_{u \in N_{r}(v), e=(u, v, r)} s(e)代表归一化项。

    更具体地说,对于每个边类型rr,可以通过首先非线性转换相应相邻节点f0(u)f^{0}(u)的嵌入特征表示来获得节点vv相对于rr的邻域信息聚合操作。通过特定的边的单层神经网络uNr(v)u \in N_{r}(v),该网络由权重WrRd×dW_{r} \in \mathbb{R}^{d \times d},偏差brRdb_{r} \in \mathbb{R}^{d}和非线性激活函数σ()\sigma(\cdot)进行参数化。 然后平均归一化的边缘权重,即s(e)Mν,r\frac{s(e)}{M_{\nu, r}}。最后,节点vv的邻域信息聚合操作ava_v的输出是针对每个边类型r的邻域信息聚合的总和。 在此,初始化节点嵌入f0(u)f^{0}(u), 通过随机映射获得uV\forall u \in V

  • 定义3(更新节点嵌入).
    给定所有节点vv的汇总邻居信息ava_v,更新节点嵌入的过程定义为:
    f1(v)=σ(W1concat(f0(v),av)+b1)σ(W1concat(f0(v),av)+b1)2(2) f^{1}(v)=\frac{\sigma\left(W^{1} \operatorname{concat}\left(f^{0}(v), a_{v}\right)+b^{1}\right)}{\left\|\sigma\left(W^{1} \operatorname{concat}\left(f^{0}(v), a_{v}\right)+b^{1}\right)\right\|_{2}}(2)
    上面的等式表明,可以使用由权重W1Rd×(2d)\mathbb{W}^{1} \in \mathbb{R}^{d \times(2 d)},偏置项b1Rdb^{1} \in \mathbb{R}^{d}和非线性激活函数σ()\sigma(\cdot)参数化的单层神经网络来获得节点f1(v)f^{1}(v)的新嵌入,以非线性地转换原始嵌入f0(v)f^{0}(v)和邻居聚集信息ava_v,然后通过其l2l_2范数进行归一化。

  • 定义4(节点嵌入的拓扑保存学习).
    给定节点f1()f^{1}(\cdot)的嵌入,将该节点嵌入的拓扑保留学习定义为:
    在这里插入图片描述
    其中Gr,HrRd×kG_{r}, H_{r} \in \mathbb{R}^{d \times k}是特定的边投影矩阵。

    上式表示,在分别由Gr,HrG_{r}, H_{r}分别对f1(u)f^{1}(u)f1(v)f^{1}(v)进行特定边的投影之后,两个投影向量的内积应尽可能重构原始的边权重s(e)s(e)。值得注意的是,(Luo et al., 2017; Natarajan and Dhillon, 2014)也使用了类似的重建策略来解决链路预测问题。此外,如果边类型r是对称的,即,rr \in{drug-structure-similarity; protein-sequence-similarity; drug-drug-interaction; protein-protein-interaction}.我们使用平局权重(即Gr=HrG_r = H_r)来实施此对称属性。 此处,相对于所有未知参数,所有边的平方重构误差总和最小。由于等式(1), (2)和(3)中的所有数学运算都是可微的或可微分的(例如, 用于ReLU激活功能),因此可以通过执行梯度下降以最小化等式(3)中描述的最终目标函数,以端到端的方式训练所有参数。

最后,在步骤3之后,可以通过以下方法获得药物节点uu和蛋白质节点vv之间的预测相互作用置信度得分:
在这里插入图片描述
其中ϕ(u)\phi(u)ϕ(v)\phi(v)分别代表uuvv的节点类型,而rr代表其边类型。

上述操作等效于重建节点uuvv之间的药物-蛋白质边权重。通过收集所有药物的f1(u)f^{1}(u)和所有靶标的f1(v)f^{1}(v),我们可以形成药物特征矩阵FdrugF_{drug}和靶标特征矩阵FtargetF_{target}。 然后,重建的DTI矩阵可以写成:
在这里插入图片描述

从这个意义上讲,我们可以将DTI预测任务视为矩阵分解或完成问题。 但是,与传统的矩阵分解方法(Natarajan and Dhillon, 2014; Zheng et al., 2013)不同,NeoDTI通过在步骤1和2中明确定义FdF_dFtF_t的构建过程,结合了更深入的学习模型来构建特征矩阵FdF_dFtF_t。此外,通过这两个步骤,NeoDTI将网络拓扑的先验知识整合到FdF_dFtF_t中,并指定这两个矩阵的形式来指导下游优化过程。因此,NeoDTI防止了DTI网络和其他网络在步骤3中被任意分解,这可以作为一个有用的正则化器,从而导致对DTI预测的性能改进(我们的交叉验证测试也证明了这一点;参见结果部分)。

3 Results

3.1 Datasets

我们采用了之前研究(Luo et al., 2017)精选的数据集,其中包括六个独立的药物/蛋白质相关网络:

  • 药物-蛋白质相互作用和药物-药物相互作用网络[相互作用摘自Drugbank 3.0版 (Knox et al., 2011)]
  • 蛋白质-蛋白质相互作用网络[相互作用是从HPRD数据库第9版中提取的(Keshava Prasad et al., 2009)]
  • 药物-疾病关联和蛋白质-疾病关联网络[ 从Comparative Toxicogenomics数据库(Davis et al., 2013))
  • 药物-副作用关联网络[从SIDER数据库版本2(Kuhn et al., 2010)中提取关联]

这些数据集的基本统计信息可以在补充Table S1中找到。 我们还通过创建两个额外的网络来合并药物化学结构信息和蛋白质序列信息:

  • 药物-结构相似性网络[即, 通过半径为2的Morgan指纹的骰子相似性(Rogers and Hahn, 2010)测量的成对化学结构相似性网络(由RDKit)
  • 蛋白质-序列相似性网络[它是基于成对的Smith-Waterman得分获得的(Smith and Waterman, 1981)。

除药物结构相似性和蛋白质序列相似性网络均具有非负实值边权重外,所有网络均具有二进制边权重(一个代表已知的相互作用或缔合,否则为零)。 我们将所有这八个网络结合起来,构建了用于评估NeoDTI预测性能的HN(Fig. 1)。在这里插入图片描述
( a ) NeoDTI使用八个独立的药物或靶标相关网络(有关使用的数据集的更多详细信息,请参阅第3.1节)。
( b ) NeoDTI首先根据这八个网络构建一个异质网络。 不同类型的节点通过不同类型的边连接。 两个节点可以通过多个边缘连接。(例如,表示药物-药物相互作用的实线和表示药物结构相似性的虚线链接。)。 另外,NeoDTI将每个节点与功能表示关联。
( c ) 为了从邻居中提取信息,每个节点都采用邻居信息聚合操作(请参见正文中的定义2)。 每个彩色箭头表示相对于特定边类型的特定聚合功能。 然后,每个节点通过将其当前表示形式与聚合信息集成来更新其特征表示形式(请参见正文中的定义3)。
( d ) 通过强制执行节点特征以尽可能地重建原始的单个网络(请参见正文中的定义4),NeoDTI有效地学习了对药物-靶标相互作用预测有用的拓扑保存节点特征。

3.2 NeoDTI yields superior performance in predicting new drug–target interactions

DTI预测可被视为二元分类问题,其中已知的相互作用药物-靶对被视为阳性实例,而未知的相互作用对被视为阴性实例。在我们的测试中考虑了一些具有挑战性和现实性的方案,以评估NeoDTI的预测性能。 NeoDTI的超参数使用独立的验证集确定(如补充材料中所述)。我们首先对所有阳性对和一组随机抽样的阴性对进行了10折交叉验证测试,阴性对的数量是阳性样品的10倍。这种情况基本上模仿了DTI被稀疏标记的实际情况。 对于每一折,使用随机选择的90%正负对子集作为训练数据来构建异质网络,然后训练NeoDTI的参数(即,在拓扑保留学习过程中,我们仅计算了重建损失)。 DTI网络需要训练数据,而其他类型网络的重建损失则照常计算),其余10%的正负对将作为测试集。我们还比较了NeoDTI和六种基线方法的性能:

  1. DTINet(Luo et al., 2017)
  2. HNM(Wang et al., 2014)
  3. MSCMF(Zheng et al., 2013)
  4. NetLapRLS(Xia et al., 2010)
  5. DT-Hybrid(Alaimo et al., 2013)
  6. BLMNII(Mei et al., 2013)

在这里插入图片描述
( a ) 10折交叉验证测试将阳性样品与阴性样品之间的比例设置为1:10
( b ) 10折交叉验证测试,其中考虑了所有未知的药物-靶标相互作用对
( c-e )在消除数据冗余的几种情况下,正负比率为1:10的十折交叉验证:
( c ) 去除了具有相似药物和蛋白质的DTI
( d ) 删除了具有相似药物相互作用的药物的DTI
( e )去除了具有相似副作用的药物的DTI
( f )NeoDTI在非唯一的药物-靶相互作用对上接受了训练,并在独特的药物-靶相互作用对上进行了测试。 有关基线方法的更多详细信息,请参见补充材料。 所有结果总结了10项试验,并表示为平均值±SD\pm \mathrm{SD}

有关如何在这些基准方法中整合异类数据以及如何确定超参数的详细信息,请参见补充材料第2节。 精确召回面积(AUPR)曲线和接收器工作特征曲线(AUROC)曲线下的面积用于评估所有预测方法的预测性能。 我们观察到NeoDTI大大优于其他基准方法,与第二最佳方法(Fig.2 a和Fig. S1 a)相比有显着提高(AUPR方面为3.5%,AUROC方面为3.0%)。

接下来,我们通过在10折交叉验证程序中包括所有阴性实例(即所有未知的药物-靶标相互作用对),进一步提高了阳性阴性率(阳性样品与阴性样品之间的比例约为1.8×1031.8 \times 10^{-3}).与第二好的方法相比,我们观察到了更大的AUPR改善(14.1%)(Fig. 2b)。尽管NeoDTI,DTINet,HNM和NetLapRLS在这种情况下在AUROC方面取得了可比的结果(Fig. S1b),如先前工作中所述(Davis and Goadrich, 2006),但在这里,AUPR通常提供比AUROC更具信息性的标准 用于高度偏斜的数据集。由于药物开发通常是一个棘手的问题,因此AUPR的显着提高确实证明了NeoDTI的预测性能优于其他方法。

由于数据集可能包含"冗余’'的DTI(即同一蛋白质与多种以上的相似药物相连,反之亦然),因此在这种情况下,通过简单的预测就可以轻松地提高预测性能(Luo et al., 2017).为了考虑这个问题,我们遵循与(Luo et al., 2017)中相同的评估策略,进行了以下额外的10倍交叉验证测试:

  1. 用相似的药物(即药物化学结构相似度> 0.6)或相似的蛋白质(即蛋白序列相似度> 0.4)去除DTI
  2. 用具有相似药物相互作用的药物(即Jaccard相似度> 0.6)去除DTI
  3. 用具有相似副作用的药物(即Jaccard相似度> 0.6)去除DTI
  4. 使用具有相似疾病的药物或蛋白质(即Jaccard相似度> 0.6)去除DTI

在所有这些测试方案中,我们将正样本与负样本之间的比率保持为1:10.正如预期的那样,在删除了多余的DTI后,我们观察到了所有预测方法的预测性能下降(Fig. 2 c-e和Fig. S1 c-g)。但是,就AUPR和AUROC而言,NeoDTI仍然始终优于其他预测方法,这也表明NeoDTI在去除数据冗余后的鲁棒性。

在二元预测中,如果数据集包含许多药物或仅具有一个相互作用伙伴的靶标,则常规交叉验证可能不是评估预测性能的适当方法。 在这里,我们称这类药物,蛋白质和相互作用为“独特的”。 在这种情况下,传统的训练方法可能倾向于利用偏重于那些独特药物和靶标的药物来提高性能(van Laarhoven and Marchiori, 2014)。为了调查此问题,我们通过将非唯一DTI分开来进一步评估了NeoDTI的预测性能。 也就是说,所有方法都在非唯一DTI上进行训练,然后在唯一DTI上进行评估。 注意在这种情况下,通过将相应的药物或靶标(或两者)强制为唯一来对测试数据中的阴性样本进行采样。 这种情况基本上模仿了在没有很多DTI知识的情况下就可以预测新药或靶标DTI的情况。 我们发现,就AUPR而言,NeoDTI的性能明显优于所有基准方法至少13.3%,这表明NeoDTI在预测这些方法的新DTI时,可以比其他最新方法具有更好的泛化能力。 没有太多DTI知识的药物或靶标。

3.3 Robustness of NeoDTI

在这里插入图片描述
( a )合并药物结构相似性网络或蛋白质序列相似性网络。
( b )纳入化合物-蛋白质结合亲和力数据。 所有结果总结了10项试验,并表示为平均值±SD\pm \mathrm{SD}

3.4 NeoDTI reveals novel DTIs with literature supports

在这里插入图片描述
蓝色和橙色节点分别代表蛋白质和药物。虚线和实线分别代表已知和预测的药物-靶标相互作用(此图的彩色版本可在Bioinformatics在线获得).

4 Conclusion

在本文中,我们开发了一个名为NeoDTI的新框架,以集成来自异质网络的各种信息以预测新的DTI。NeoDTI通过应用神经网络将邻域信息整合到输入的异质网络中,从而提取出药物和靶标的复杂隐藏特征。通过端到端方式同时优化特征提取过程和DTI预测模型,NeoDTI可以实现优于其他最新方法的出色预测性能。NeoDTI的有效性和鲁棒性已在几种现实的预测场景中得到了广泛验证,并得到许多新颖的预测DTI与文献中先前研究非常吻合的发现的支持。此外,NeoDTI可以轻松整合更多与药物和靶标相关的信息(例如,化合物与蛋白质的结合亲和力数据)。因此,我们相信NeoDTI可以提供一个强大而有用的工具来促进药物发现和药物重新定位过程。 将来,我们将通过整合更多异构信息进一步扩展NeoDTI,并通过湿实验室实验验证一些预测结果。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!