Deep Visual-Semantic Hashing for Cross-Modal Retrieval

用于跨模态检索的深度视觉语义哈希

摘要：

由于哈希算法具有较高的存储和检索效率，在大规模多媒体检索中被广泛应用于近似近邻搜索。跨模态哈希能够有效地检索图像以响应文本查询，反之亦然，近年来受到越来越多的关注。现有的大多数跨模态哈希研究工作都没有捕捉到图像的空间依赖性和文本句子的时间动态，从而学习强大的特征表示和跨模态嵌入，从而缓解了不同模式的异质性。摘要提出了一种新的深度视觉语义哈希(DVSH)模型，该模型在端到端深度学习体系结构中生成图像和句子的紧凑哈希码，捕捉视觉数据与自然语言之间的内在跨模态对应关系。DVSH是一种混合的深度架构，它构成了一个用于学习图像和文本句子的联合嵌入空间的可视化语义融合网络，以及两个用于学习哈希函数以生成紧凑二进制代码的特定于模态的哈希网络。我们的架构有效地统一了联合多模态嵌入和交叉模态哈希，它是基于图像上的卷积神经网络、句子上的递归神经网络和一个结构化的最大裕度目标的新组合，该目标将所有东西集成在一起，从而能够学习保持相似性和高质量的哈希码。大量的经验证据表明，我们的DVSH方法在图像-句子数据集的跨模态检索实验中，即标准的IAPR TC-12和大规模的Microsoft COCO中，得到了最先进的结果。

1.介绍

而海量、高维的多媒体大数据在搜索引擎和社交网络中无处不在。近年来，跨媒体模式的近似近邻搜索得到了越来越多的关注，它带来了计算效率和搜索质量。由于来自不同模态的对应数据可能赋予语义相关性，因此支持跨模态检索是非常必要的，即返回一个模态的相关结果以响应另一个模态的查询，例如用文本查询检索图像。哈希方法是一种跨模态检索的优势解决方案，它将高维数据压缩为具有相似二进制码的紧凑二进制码，用于相似的对象[36]。本文主要研究建立同构哈希码的跨模态哈希，以实现高效的跨媒体检索。由于不同的模态之间存在异质性[31,38]，而且低水平特征和高水平语义之间存在语义差异，因此有效的跨模态哈希仍然是一个挑战。

许多跨模态哈希方法被提出来利用哈希函数学习过程中不同模式间的共享结构，压缩同构汉明空间中的跨模态数据[4,22,44,45,33,37,41,27,43,39,25,29]。这些基于浅层架构的跨模态哈希方法不能有效地利用异构相关结构来桥接不同的模态。最近几个多模态嵌入的深度模型[9,20,28,18,6,10,1]表明，深度学习能够比浅层学习方法更有效地捕获异构的跨模态关联。虽然这些深度模型已经成功地应用于图像字幕和检索，但它们不能生成紧凑的哈希码来实现高效的跨模态检索。与此同时，最新的深度哈希方法[40,23,46,5]在许多数据集上产生了最先进的结果，但这些方法仅限于单模态检索。

在这项工作中，我们力求在响应自然语句查询时实现图像的高效跨模态检索，反之亦然，如图1所示。这种新的哈希场景不同于以前使用无序关键字查询的工作，它更适合于实际应用程序，因为用户通常更容易用自由风格的文本语句而不是几个关键字来描述图像。实现这一目标的主要挑战在于设计一个模型，该模型足够丰富，可以同时对图像的内容及其在自然语言领域中的表示进行推理。此外，该模型应该能够生成紧凑的哈希码，捕捉图像和句子的丰富特征以及跨模态相关结构，以实现高效的跨模态检索。据我们所知，这项工作是第一个端到端的跨模态学习方法，这使得针对句子查询的图像的有效的跨模式检索成为可能，反之亦然。

本文提出了一种新的深Visual-Semantic散列(DVSH)模型产生紧凑的哈希码的图片和句子在一个端到端的深度学习体系结构中,捕捉图像的空间相关性和时间动态文本句子学习强大的特性表征和跨通道嵌入减轻不同形式的异质性。DVSH是一种混合的深度架构，它构成了一个用于学习图像和句子的联合嵌入空间的视觉语义融合网络，以及两个用于学习哈希函数以生成紧凑二进制代码的特定于模态的哈希网络。体系结构有效结合联合多通道嵌入和跨通道散列,基于卷积神经网络在图像的无缝结合,复发性神经网络在句子,结构化max-margin目标整合了所有的东西在一起使学习similarity-preserving和高质量的哈希码。综合的实证结果表明，我们的DVSH模型在流行的图像-句子数据集的跨模态检索实验中，即标准的IAPR TC-12和大规模的Microsoft COCO中，得到了最先进的结果。

2.相关工作

这项工作与跨模态哈希有关，它是机器学习、数据挖掘和多媒体检索社区中一个日益流行的研究主题[4,22,44,45,33,31,30,37,38,41,8,16,43,27,39,25]。我们建议读者参考[36]进行全面的调查。

现有的跨模态哈希方法大致可分为无监督方法和监督方法。无监督哈希方法学习哈希函数，该函数仅使用未标记的训练数据将输入数据点编码为二进制代码。典型的学习准则包括重构误差最小化[8,37]，相似度保存为基于图的哈希[22,33]，量化误差最小化为相关量化[39,29]。监督哈希方法探索监督信息(例如，相对相似或相关反馈)，以学习紧凑哈希编码。典型的学习方法有度量学习[4,25]、神经网络[30]和相关分析[43,39]。由于监督哈希方法可以挖掘语义信息，增强跨模态相关性，减少语义鸿沟[32]，因此在跨模态检索中，它比非监督方法具有更高的准确性。

以往基于浅层架构的跨模态哈希方法大多不能有效地利用跨不同模态的异构相关结构。最新的多模态嵌入深度模型[9,20,18,6,10,15]表明，深度学习可以更有效地捕获异构信息的跨模态关联用于图像描述和跨模态推理，但如何将这些深度模型扩展到跨模态哈希仍不清楚。最近的深度哈希方法[40,23,5,46]已经给出了许多数据集的最新结果，但这些方法只能应用于单模态检索。据我们所知，这项工作是跨模态深度哈希的第一个端到端的学习方法，它能够有效地跨模态检索图像以响应文本-句子查询，反之亦然。

3.深度网络初步研究

3.1卷积神经网络(CNN)

为了学习视觉数据的深度表示，我们从AlexNet[21]开始，它是深卷积网络(CNN)架构，赢得了2012年的ImageNet ILSVRC挑战。AlexNet由5个卷积层(conv1 conv5)和3个全连接层(fc6 fc8)组成，如图3所示。每个完全连接的层

学习一个非线性映射。

,这里

是图像x的第l层激活值，

和

是第l层的权重和偏置。

是激活函数，作为Conv1-fc7层的修正线性单元（ReLU）

。与全连通层不同，每个卷积层是一个大小为h×w×d的三维数组，其中h和w是空间维度，d是特征或信道维度。第一层为输入图像，像素大小为h×w，颜色通道为d。高卷积层中的位置对应于它们所连接的图像中的位置，这称为接受域。

CNNs是建立在翻译不变性[6]上的。它们的基本组件(卷积、池化和激活函数)作用于局部输入区域，并且只依赖于相对的空间坐标。将xij表示特定层中位置(i, j)处的图像向量，hij表示下一层，这些卷积层中的函数通过hij计算

（1）

k被称为内核大小,s是步长或次抽样的因子,和决定了层类型:一个卷积矩阵乘法或平均池、一个空间最大值为最大池化、或一个激活函数的元素非线性,所以在其他类型的层。这种功能形式在组合下维护，内核大小和步长遵循以下转换规则

（2）

一般的深度网络计算一般的非线性函数，而只有这种形式的层的网络计算非线性滤波器，我们称之为深度滤波器或特征映射。

3.2长短时记忆(LSTM)

为了研究序列数据的深度表示，我们采用了长短时记忆(LSTM)递归神经网络[14]。尽管复发性神经网络(RNNs)已被证明成功的任务,比如语音识别和文本生成,很难训练他们学会长期动态,可能部分原因是消失和爆炸梯度的问题,可以从传播梯度下降的结果通过经常性的多层网络,每个对应一个特定的步伐。LSTMs通过整合内存单元提供了一种解决方案，该内存单元允许网络了解何时忘记以前的隐藏状态，以及何时根据新信息更新隐藏状态。

图2:LSTM内存单元的关系图。

在本文中，我们采用了[35,42,6]中所描述的LSTM单元，这是对[11]中所描述的LSTM单元的一个略微简化，如图2所示。使作为sigmoid激活函数使得真值映射到[0,1]范围内，让作为双曲正切函数，类似地映射它的输入到[-1,1]的范围内，LSTM根据给定的输入，和在每个时间步长t更新。

（3）

这里是相应的每个时间步长t的输入门，忘记门，输出门，输入调制门，存储单元和隐藏单元。权重矩阵有一个明显的含义：输入-忘记门矩阵是隐藏输入门矩阵。因为和的激活函数是sigmoid函数，它们的值是[0,1]，并且他们学会了控制有多少记忆单元忘记以前的记忆或考虑当前的输入。类似的，输出门学习有多少存储单元转化成隐藏单元。考虑记忆细胞，它是两个部分的总和:先前的记忆单元由遗忘门调制，由输入门调制。这些附加的门使LSTM能够学习更复杂和更长期的时间动态，而不能从RNN中获得。通过使用l-1层中的LSTM的隐藏状态作为l层中的LSTM的输入，额外的深度可以通过将它们叠加在一起来增加LSTMs。

LSTMs用于在视觉和自然语言问题中建模顺序数据的优点是:(1)与当前的视觉系统集成时，LSTMs可以直接进行端到端调优;(2) LSTMs不局限于固定长度的输入或输出，允许对不同长度的连续数据(如文本或视频)进行简单建模。

4. 深VISUAL-SEMANTIC哈希

在跨模态检索系统中，数据库由一种模态的对象组成，查询由另一种模态的对象组成。摘要研究了一种新的跨模态哈希方案，给出了对应于图像的图像-句子对和正确描述图像的文本句子对。通过学习N个双峰对象的训练集，揭示了图像与文本之间的相关结构，这里表示图像模态的dx维特征向量，表示由单词序列组成的句子i, 这里 ∈ 为表示第i句中时间t的单词的一个独热向量(yit的非零元素表示该单词在大小为Dy的词汇表中的索引)。一些双模对象对与相似标签相关联，其中Sij=1表示OI和oj相似，Sij=1表示OI和oj不同。在有监督的跨模态哈希中，S = {sij}是由数据点的语义标签或点击通过数据的相关反馈构成的。

我们提出了一种新的基于深度视觉语义哈希(DVSH)的跨模态检索方法，它学习（1）一个端到端的双峰融合函数，该算法将图像和文本映射到一个k维联合汉明嵌入空间H中，使每个图像-句子对的嵌入紧密融合，以桥接不同的模态，同时保留给定双峰对象对S中所传递的相似信息;（2）两个特定于模式的散列函数和，在联合嵌入空间H中，将数据库和查询中的每个图像x和语句y编码为紧凑的二进制哈希码u {1,1}K和v {1,1}K，实现高效的跨模态检索。

图3中提出的跨模态深度哈希方法(cross-modal deep hashing approach, DVSH)是一种用于跨模态哈希的端到端深度架构，它包括用于学习图像表示的卷积神经网络(convolutional neural network, AlexNet)和用于学习文本表示的递归神经网络(neural network, LSTM)。该架构接受成对的输入，并在端到端的深度表示学习和哈希编码管道中处理它们:（1）一种用于在联合嵌入空间中学习同构哈希码的深度视语义融合网络，使每个图像-句子对的表示紧密融合并关联;（2）一种用于学习非线性模态特定哈希函数的图像哈希网络和句子哈希网络，该哈希网络将每个不可见的图像和句子编码为联合嵌入空间中的压缩哈希码;（3）提出了一种新的余弦最大裕度损失算法，以保留成对的相似信息，增强对异常值的鲁棒性;（4）一种新颖的按位maxmargin损失来控制二进制哈希码的质量。

4.1 Visual-Semantic融合网络

跨模态检索的挑战在于，跨模态数据(图像和文本)具有显著不同的统计特性(异构性)，这使得基于手工特征的跨模态相关性很难捕获。最近有研究发现，深度卷积网络(deep convolutional networks, CNNs)[21]和深度递归网络(deep networks, RNNs)[35]等深度学习方法在许多现实感知问题上取得了性能上的突破。深层结构能够有效地提取不同模态共享的多模态嵌入信息，能够有效地桥接不同模态的非线性特征表征[2,9,34,19,20,6,18]。因此，我们通过设计一种深度的视觉语义融合来利用深度网络进行跨模态联合嵌入网络见图3的左部,该地图的深层特征表示图像和文本等共享visual-semantic嵌入空间的对应关系传达image-sentence一对可以最大化而成对相似性信息转达了相似的标签可以被保留下来。

图3:深度视觉语义哈希(DVSH)的体系结构，这是一种端到端的图像-句子跨模态检索的深度哈希方法。该体系结构包括四个关键部分:(1)用于学习联合嵌入空间同构哈希码的深度可视化语义融合网络(统一CNN和LSTM);(2)图像哈希网络(CNN)和句子哈希网络(LSTM)，用于学习将输入映射到联合嵌入空间的非线性模态特定哈希函数;(3)保留成对相似信息的新的余弦最大裕度损失;(4)一种新颖的按位最大裕度损失来控制二进制哈希码的质量。彩色模块是本文修改或新制作的模块。彩色效果最佳。

提出的深度视觉语义融合网络将每个视觉输入(本例中的图像)通过深度卷积神经网络(CNN)生成一个固定长度的向量表示。注意，我们将原来AlexNet[21]的fc8层中的softmax分类器替换为一个feature map，它将图像特征从fc7层映射到k维的新特征。我们采用LSTM作为我们的序列模型，它在时间步t映射每个序列的输入(在我们的例子中是一个句子)，并将之前的时间步(t1)的一个隐藏状态映射到一个输出并更新隐藏状态。因此，推理必须按顺序运行(即图3中从上到下)，使用式(3)按顺序计算激活，即根据(t1)-th状态更新第t状态。

为了将CNN和LSTM集成到一个统一的深度可视化语义嵌入模型中，在每个状态下，将计算得到的视觉输入的特征空间表示融合到LSTM模型的第二层，如图3所示。具体来说，序列(文本句)中t-th状态(单词)的融合层(绿色的LSTMs)激活可以计算如下：

（4）

其中f（·）表示对第二层LS TM的时间步长t的更新，方法是将xt、hxi和它替换为方程（3）。注意，要减少融合层的激活层中与最终的二进制哈希编码和之间的差距，我们先使用双曲正切（tanh）激活函数把激活值挤压到[-1,1]的范围内，这种融合操作对体现多模态视义嵌入空间具有重要意义。前面提到的按时间步长的融合将可视化和文本嵌入和合并为一个统一的嵌入。然而，每一个时间步长t都会产生一个联合嵌入，而我们期望每个图像-文本对只产生一个融合代码，以使跨模式检索有效。为此，我们采用了[12]分布的平均嵌入技术，并通过加权平均为每个图像-句子对生成对级融合码：

（5）

在∈{1, 0}是指标变量, = 1如果有t的步伐,和 = 0。我们处理这些情况是因为文本句子的长度是可变的，而且有些句子比LSTMs中的状态数T还短。值得注意的是，所推导的联合视义嵌入不仅分别利用CNN和LSTM捕获了句子的空间依赖性和时间动态性，而且还捕获了多模态汉明嵌入空间中的跨模态关系。为了获得最优的二值编码联合嵌入空间，需要对训练数据进行联合嵌入，以保留训练数据中两两相似的信息，并用位超平面很好地进行分割。

4.1.1 Cosine Max-Margin损失

为了使学联合visual-semantic嵌入最大限度保留相似信息在不同的模式,我们提出以下准则:为每一对对象,如果sij = 1,表明和是相似的,那么他们的哈希码和必须相似的不同形式(图片和句子),相当于要求共同visual-semantic嵌入和应该是相似的。相应的，如果sij = -1，表示oi和oj不相似，那么它们的共同视觉语义嵌入hi和hj应该不相似。我们用余弦相似度用于测量hi和hj之间的亲密度，其中hi·hj为hi与hj的内积，为向量的欧氏范数。对于保留相似性学习，我们建议最小化下列余弦最大裕度损失：

（6）

其中c > 0是margin参数，它被固定为 = 0.5。这一目标鼓励相似的图像-句子对比不相似的图像-句子对有更高的余弦相似度。与支持向量机类似，最大裕度损失增强了对异常值的鲁棒性。余弦最大裕度损失在交叉模态相关分析中尤其强大，因为不同模态下的向量长度差异很大，可能会使许多距离度量(如欧几里得距离)以及损失函数(如平方损失)被错误指定。到目前为止，这个问题还没有在跨模态深度哈希方法[36]的研究。