视听融合综述（二）Audiovisual Fusion: Challenges and New Approaches

分享一篇视听融合研究综述，2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年，是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究（review, survey, and tutorial）不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果，并讨论了该领域的主要挑战，重点是两种模态的不同步以及训练和测试的问题。

题目：Audiovisual Fusion: Challenges and New Approaches

Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653.

发表时间：2015

作者单位：Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA

权威期刊：Proceedings of the IEEE

原文链接： https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741

本文内容是该综述的3、4两节，主要内容为四种融合技术和该任务面临的难点和挑战。

▍目录 ▍

▍3.融合技术 FUSION TECHNIQUES ▍

已经有许多技术用于AV处理中的建模和融合步骤，例如SVM，图形模型（例如DBN和HMM），神经网络和估计算法（例如，卡尔曼滤波）。通常，这些是建模技术，适用于视音频系统的各个部分。例如，它们可以用作建模过程单元中的一种技术（参见图2）。由于当前研究的重点是融合，因此我们不讨论在系统其他部分中使用这些建模技术并仅关注集成单元的此类工作。在下文中，我们简要介绍了一些AV应用中最常用的融合技术。

▶ A.支持向量机 ◀

SVM代表流行的建模技术，该技术已广泛用于许多分类问题。在大多数利用SVM的视音频工作中，它们已被用来独立地对单个模态进行建模。但是，有些研究，特别是在后期集成中，已经使用SVM作为融合技术来集成从系统其他组件获得的决策。例如，[26]，[27]已经对视频中的AV概念检测进行了许多研究，其中分别对一些音频，视觉和文本线索进行建模，并产生相应的分数。然后将获得的分数连接起来以形成特征向量，该特征向量将作为SVM的输入以检测语义概念。在其他应用程序（例如生物识别）中也使用了相同的想法。 Bredin和Chollet [19]结合了从三个组件获得的分数，包括使用SVM作为决策集成单元，集成面部识别系统，说话者验证系统和同步（相关）估计模块。

▶ B. 动态贝叶斯网络Dynamic Bayesian Networks ◀

贝叶斯网络是概率图形模型，代表一组随机变量及其条件相关性。贝叶斯网络的图形表示是通过非循环有向图完成的，其中顶点表示每个变量，两个变量之间的条件依存关系由相应顶点之间的边表示。 DBN是对观测序列建模的贝叶斯网络。 DBN及其变体广泛用于视音频应用中，尤其是在应考虑时间排序的地方，例如语音处理和视频分析。

Noulas和Kroèse[88]建议在视频分析应用程序中使用两层DBN建模方法，以解决将线索分配给创建线索的人的问题。在第一层中，每个模态（在这种情况下为音频和视频）都使用单独的DBN独立建模。在第二层中，另一个DBN用于对这两种模态之间的交互进行建模。建议使用期望最大化（EM）来估计DBN的参数。

其他研究人员还建议使用多流DBN来对模态之间的交互进行建模。例如，Dielmann和Renals [42]使用自动会议分割系统来分析基于多流DBN的会议视频。目标是将用多个麦克风和摄像机录制的会议自动组织为小组会议动作的序列，例如独白，讨论和演示。他们建议与多流DBN一起对AV线索进行建模，该DBN将低级功能与更复杂的群体行为相关联。

在Bilmes和Bartels [89]给出的通用多流DBN模型结构中，在AV流中，每个单词都由固定数量的状态组成，并且每个状态都与观察向量相关联。训练参数的数量非常大，特别是对于大词汇量语音识别的任务。为了减少训练参数，每个单词都由其对应的音素序列组成，并且每个音素都与观察向量相关联。由于音素由所有单词共享，因此训练参数大大减少了（这被称为多流异步DBN（MS–ADBN）模型）。但是，该模型是单词模型，其识别基本单位是单词。

Lv等人基于MS–ADBN模型[90]在两个流中的音素节点级别和观察变量级别之间引入了额外的隐藏节点级别状态，从而导致了多流多状态异步DBN（MM-ADBN）模型。其中，每个音素都由固定数量的状态组成，并且每个状态都与观察向量相关联；除了单词以外，还描述了音素的动态发音过程。

Terry和Katsaggelos [11]引入了对该模型的扩展。在[89]中，AV流是独立建模的，每一个都由音素组成子字单元（称为音素/音素模型）。但是，AV语音不是由相同的子词单元组成的。在多对多映射中，视觉语音单位（视位素）与音频语音单位（音素）有关[91]。文献[11]中的方法反映了这一点，并且将音频流建模为包含音素，而视频流则包含视位（音素/语音模型）。

DBN已用于各种AV融合任务中，这些任务需要对它们的随机变量之间的多重依赖性进行建模。此外，他们可以有效地处理时间序列数据[92]。这些优点使它们适用于许多多媒体分析任务。 DBN的主要缺点是难以确定其正确状态[57]，[93]。

▶ C.隐马尔可夫模型 ◀

HMM可以看作是DBN的一种简单形式，它表示观察序列上的概率分布。像DBN一样，HMM已广泛用于语音和视频处理任务。在某些工作中，单个HMM被用来联合建模AV功能，而不会在它们之间进行区分。这些工作可以归类为早期整合方法[51]，[94]。例如，Wang等人使用了HMM[51]对从每帧中提取的AV特征进行建模以执行视频镜头检测。相反，提出了HMM的几种变体作为中间集成技术，这些技术试图分别对模态进行建模，同时考虑它们的交互作用。多流HMM（MSHMM）使用两个单独的流进行音频和视频观察。他们在每一帧都结合了这些观察。解码算法的复杂度在流的数量上是线性的[95]。该建模已广泛用于AV语音识别应用程序[9]，[12]，[13]。在状态异步HMM中[96]，不是在每个帧上耦合观察结果（可能太紧），而是将两个标准HMM绑在模态的边界上。以这种方式，可以保持模态之间的异步以及它们的对准。在HMM的另一个变体中，称为耦合隐马尔可夫模型（CHMM）[97]，并行流是使用并发HMM建模的，其中每个HMM状态可以在异步区域内转换，但应保持在模型边界[98]。

CHMM和状态异步HMM的主要问题在于，当使用两个以上的流时，它们的精确训练算法变得很棘手[95]。读者可以参考[98]，以获得有关各种类型的HMM，其优缺点的完整说明。除了DBN和HMM，其他类型的图形模型，例如条件随机字段（CRF）及其变体[99]，也已用于多模态融合[100]。

▶ D.基于估计的方法 ◀

基于估计的多源融合技术包括Kalman和粒子滤波方法的变体[57]。卡尔曼滤波是一种根据随时间变化的噪声观测序列估计状态空间模型的技术。它能够保留其先前状态的历史记录而无需额外的内存。卡尔曼滤波器代表具有加性高斯噪声的一维线性系统的最佳估计量[101]。称为扩展卡尔曼滤波器（EKF）[102]的卡尔曼滤波器的非线性版本用于建模非线性系统。

粒子滤波器用于根据一段时间内的一系列观测结果对随机动力学系统进行建模。这些方法也称为顺序蒙特卡洛（SMC）方法[103]。虽然卡尔曼滤波器通常用于建模线性系统，而扩展卡尔曼滤波器可以用于非线性系统，但粒子滤波器更适合于非线性和非高斯模型，尤其是在样本数量足够大的情况下。

这些是目标定位，人员跟踪以及数据融合中的流行技术。它们可以在特征和决策级别上进行融合。例如，Loh等[39]结合了来自三个麦克风的音频数据和来自一个摄像机的视频数据来估计说话人的位置，然后使用卡尔曼滤波器来估计她/他的速度和加速度。

Gehring等[37]分别提供了来自不同相机的识别面部和不同麦克风之间的到达时间延迟（TDOA）作为音频和视频功能，以提供给EKF来检测活动说话人的位置。 Talantzis等人提出了一种分层的卡尔曼滤波器结构。 [30]使用多个麦克风和摄像头来跟踪3-D空间中的人物。首先，考虑用于音频和视频流的两个单独的本地卡尔曼滤波器。然后，使用一个全局卡尔曼滤波器对这两个局部滤波器的输出进行融合。 Kilic等[104]提出了一种整合音频和视频信息的新方法，以使用粒子滤波来跟踪多个移动说话人。他们在传播步骤中重塑了粒子的传统高斯噪声分布，并在测量步骤中通过利用音频信息和到达方向（DOA）角来对观察模型进行加权。

▶ E.任务相关技术 ◀

其他AV融合技术针对特定应用，但通常没有通用性。这些融合技术通常被认为是中间方法。例如，Casanovas等[105]提出了一种基于稀疏表示的盲AV源分离方法。构建两个字典来表示音频和视频模态的冗余表示。扩展了使用两个字典分别对音频和视频观测进行建模的想法，“本地”信息通过使用独特的AV词典来开发，如[55]所示。

在他们的其他工作[106]中，提出了一种迭代视频扩散技术，该技术可以检测视频中与所产生的声音相关的区域。音频和视觉模态之间的同步性度量被用来识别这些区域。提取的区域可用于多种AV应用程序，例如视频中的音频源定位。该技术也已被用来提取对象，以无人监督的方式在视频中产生声音[6]。

表1列出了涉及AV融合的应用程序总结。每个应用程序下的代表工作也都列出了。对于它们中的每一个，还显示了所使用的AV功能以及实际的融合技术及其分类。这只是一份代表性的文件清单，绝不是详尽无遗的。其他应用程序可以在[10]，[22]，[57]及其参考文献中找到。

▍4.挑战性 ▍

设计视音频系统的一个重要问题是如何整合各种模态（在我们的示例中为音频和视频）的知识，以利用每种模态的信息知识，同时又忽略每种模态的弊端。在下文中，描述了该领域中的一些主要挑战。

每个模态在不同环境条件下的有效性是不一样的。在某些情况下，系统应更多地依赖音频，例如在黑暗的场景中，而在另一些情况下，则应更多地依赖视频，例如在嘈杂的环境中。换句话说，系统应适应模态的质量，可靠性和置信度quality, reliability, and confidence。实现此目标的一般方法是在融合过程中考虑每个模态的权重。可以通过根据测试数据[101]，[107]-[109]的质量不断调整权重来在动态方案中进行加权，也可以通过仅基于训练数据来计算一些恒定权重来在静态方案中进行加权[46] ]，[110]，[111]。如果训练和测试数据中的模态质量不同，则需要动态加权。尽管许多研究者[112]，[113]已经解决了这个问题，但仍然需要解决在不同条件下估计合适权重的问题。
处理不同类型的多种模态可能会导致许多同步问题。 AV融合中有两种主要的异步类型。第一种类型源自音频和视频流之间的异步。例如，语音的视觉和听觉迹象不一定完全同时发生。结果，在AV语音识别中，语音和视觉线索之间存在自然的异步，这被称为“保护性和预期性的协同发音” [114]。另一种类型与感测速率和不同模态的处理时间之间的差异有关。同样，完成特定任务所需的数据量取决于应用程序；例如，与AV语音识别相比，用于AV事件检测的数量更长。在实际应用中，异步处理是一个重要且至关重要的问题，应进行适当的研究和解决。
如今，可获取大量数据，而这些数据大多没有标签。标记数据的过程需要人工，这既费时又昂贵。有必要提供一种融合技术，该技术能够从大量的未标记资源中受益。大多数传统的AV技术都没有考虑利用未标记的数据。然而，最近，研究人员[115]，[116]已经在半监督甚至无监督的情况下进行视音频处理。他们大多将多模态处理问题视为多视图学习问题，并提出了新的学习技术来解决诸如标签丢失，视图（模态）和半监督学习之类的问题。

该综述剩余部分放在《视听融合综述（一）（三）》两篇博文内，感兴趣的朋友可以关注我的博客，或知乎主页：

https://www.zhihu.com/people/miao-xiao-di/activities

来源：CSDN

作者：yidiLi

链接：https://blog.csdn.net/weixin_41537599/article/details/103493253

标签

dbn

模态分析

卡尔曼

HMM