【深度学习】更大规模的完整视频理解

僤鯓⒐⒋嵵緔 提交于 2020-02-06 10:36:00

译者:蓝燕子

声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢!

 

摘要

        近年来,视频识别技术在具有丰富注释的基准中得到了发展。然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的。视频理解任务,从而在描述视频的整体内容方面留下了很大的差距。我们通过展示一个大规模的“整体视频理解数据集”(HV)来填补这一空白U).在语义分类中,HVU是分层组织的,它侧重于多标签和多任务视频理解,作为一个综合问题,包括对多个符号的识别动态场景中的IC方面。HVU包含大约。总共有572k个视频,900万个注释用于培训、验证和测试集,跨越3457个标签。HVU包含语义方面定义在场景、对象、动作、事件、属性和概念的类别上,这些类别自然地捕捉到了现实世界的场景。

        此外,我们还引入了一种新的时空深层神经网络体系结构,称为“整体外观与时间网络”(HATNet),它通过组合将2D和3D体系结构融合到一起。宁的外观和时间线索的中间表示。HATNet的重点是多标签和多任务学习问题,并以端到端的方式进行训练。实验表明H在HVU上训练的ATNet在挑战人类行动数据集方面优于目前最先进的方法:HMDB51、UCF101和动力学。数据集和代码将公开提供,地址:https://github.com/holistic-video-understanding

1. 引言

        视频理解是一个包含多个语义方面的综合问题。包括:场景或环境、对象、动作、事件、属性和概念。即使在视频识别方面取得了相当大的进展,它仍然局限于行动方面。在-这是由于没有建立的视频基准集成联合识别多个语义方面的动态场景。而卷积网络(ConvNets)h已经导致计算机视觉的几个子领域突飞猛进,其中一个预期的缺点是培训ConvNet的视频理解与一个单一的标签每个任务是不足的descri。是视频的内容。这一问题主要阻碍ConvNets学习通用特征表示,以挑战整体视频分析。为了达到这个目的,人们可以很容易地克服通过将视频理解问题重铸为多任务分类,其中从多个语义方面为视频分配多个标签。此外,学习一个基因也是可能的用于视频分析和理解的RIC特征表示。这与在Image Net上培训的有助于学习通用特征表示的图像分类ConvNet是一致的几个视觉任务。

        因此,在多个语义方面对ConvNet进行数据集的培训可以直接用于视频数据中概念的整体识别和理解,这使得描述视频的内容非常有用。

        为了解决上述问题,本工作提出了“整体视频理解数据集”(HVU)。HVU是在语义分类中分层组织的,目的是提供一个多标签和亩大规模视频基准与全面的任务列表和注释的视频分析和理解。HVU数据集由476k、31k、65k训练中的样本、验证和TE组成它是一个足够大的数据集,这意味着数据集的规模接近图像数据集的规模。HVU包含大约。总共572k个视频,带有-7.2M注释,用于培训集,600K用于验证集,-1.3M用于跨越3457个标签的测试集。一个完整的光谱包括对定义在它们上的多个语义方面的识别,包括282个场景类别,对象1917,动作882,事件77,属性106,概念193,这自然捕捉到了视觉概念在现实世界中的长尾分布。所有这些任务支持丰富的注释,每个标签平均有2112个注释。HVU行动类别以行动识别数据集[21、25、27、42、56]为基础,然后通过合并进一步扩展视频中场景、对象、事件、属性和概念的NG标签。上述详尽的注释使我们能够开发出强有力的算法,以实现对整体视频的理解,从而描述这个问题一个视频的帐篷。表1-2显示了数据集统计数据。

        此外,我们还引入了一种新的时空结构,称为“整体外观与时间网络”(HATNet),它侧重于多标签学习和多任务学习,以共同解决多任务问题。同时出现时空问题。HATNet结合了外观和时间线索的中间表示,将2D和3D体系结构融为一体,形成了一个强大的时空符号律师代理。我们的HATNet在HMDB51、UCF101和动力学数据集上取得了优异的成绩。特别是,如果模型是预先训练在HVU和微调相应的数据集I。优于模型预先训练的动力学。这表明了我们的数据集的丰富性以及多任务学习的重要性。我们通过实验证明了HATNet具有出色的性能其中UCF101(97.8%)、HMDB51(76.5%)和动力学(77.6%)。

图1:整体视频理解数据集:一个多标签和多任务的完整注释数据集和HATNet作为一个新的深度ConvNet的视频分类。

表1:HVU数据集统计,即。视频用于训练、验证和测试集的剪辑。

 

2. 相关工作

        使用ConvNet的动作识别:关于先前手工设计的[7,26,28,37,49,54]和低级时间结构[16,17,33,51]描述符学习,有大量的文献,超出了本文的范围。

        最近,基于ConvNets的动作识别[14,24,41,45,52]已经采取了一个飞跃,以利用外观和时间信息。这些方法在2D(单个图像级别)上工作[10,12,1]8、43、44、52、55]或3D(视频剪辑或K帧片段)[14、45、46、48]。这些体系结构的过滤器和池核是3D(x,y,时间)。三维卷积(s×s×d)[55]它是核的时间深度,s是核的空间大小。这些3D ConvNet是直观有效的,因为这种3D卷积可以直接提取时空特征fr原始视频。Carreira等人提出了基于初始[23]的3D CNN,他们称之为I3D[6]。最近,一些工作引入了时间过渡层,对可变时间co进行建模卷积核深度在较短和较长的时间范围内,即T3D[9]。进一步Diba等人。[8]提出了时空信道相关性模型,该模型模拟了三维Co信道之间的相关性nvNets wrt.空间和时间维度。与这些以前的工作相比,我们的工作在范围和技术方法上有很大的不同。我们提出了一种架构,HATNet,它利用了bo学习2D ConvNet和3D ConvNet的有效时空特征表示。最后,值得注意的是来自未标记来源的自我监督ConvNet培训工作[19,39],如Fernando等人。[15]和Mishra等人。[31]通过对vi进行洗牌来生成训练数据迪奥框架;Sharma等人。[35,38]使用基于相似性的距离矩阵来挖掘标签,尽管用于视频人脸聚类;Wei等。[53]预测排序任务;Ng等人。[32]估计opti识别动作时的CAL流;Diba等人[11]在认识行动的同时预测短期未来框架。自监督和非监督表示学习超出了本文的研究范围。

        与我们最接近的工作是Ray等人。[34].Ray等人连接预先训练的深层特征,针对不同的任务、场景、对象和旨在识别的动作独立学习,相反,我们的HATNet是训练端到端的多任务和多标签识别在视频。

图2:左:每个主要类别中每个标签的平均样本数。中间:每个主要类别的标签数量。右:每个主要目录的样本数。

 

        视频分类数据集:在过去十年中,公开了几个视频分类数据集[4、5、27、36、42],重点是行动识别,如Ta所述Ble3.我们简要回顾了一些最有影响力的行动数据集。在动作识别领域,HMDB51[27]和UCF101[42]一直是非常重要的。然而,他们根本不是没有足够大的训练深度ConvNet从零开始。最近,一些大型动作识别数据集出现了。如ActivityNet[5]和Kinetics[25]。ActivityNet包含849小时的视频,包括28,000个操作实例。Kinetics600包含500,000个视频跨越600个具有更多t的人类行动类。韩400例为每班。目前的实验策略是首先对这些大型视频数据集[5,24,25]进行预训练,然后在小规模数据上进行微调集合[27,42]来分析它们的转移行为。最近,一些其他动作数据集被引入了更多的样本、时间持续时间和类别分类的多样性,它们是HACS。[56]、AVA[21]、Charades[40]和一些东西[20]。体育-1M[24]和YouTube-8M[3]是具有百万尺度样本的视频数据集。它们包含的视频比其他的长得多数据集及其注释是在视频级别提供的,而不是时间戳。YouTube-8M标签是机器生成的,没有任何人的真实性在循环和体育-1M只是焦点。关于体育活动的SED。

        在SOA数据集中观察到类似的HVU精神[34]。SOA的目的是识别视觉概念,如场景、对象和动作。相反,HVU有几个数量级的语义标签(比SOA大6倍),不仅限于场景、对象、动作,还包括事件、属性和康塞普Ts.我们的HVU数据集可以帮助计算机视觉社区,并使更多的关注整体视频理解作为一个全面的,多方面的问题。值得注意的是,SOA文件已经发布然而,2018年,当我们的数据集准备好公开时,数据集没有发布。

        在静态图像中的物体识别大规模基准的努力,即大规模视觉识别挑战(IL SVRC)学习通用特征表示现在是ab支持几个相关的视觉任务。我们在同样的精神驱动下,学习一个通用的特征表示在视频层面,以整体视频理解。

 

3.HVU数据集

        在整体视频理解的语义分类中,HVU数据集是分层组织的。几乎所有的真实的条件视频数据集都是针对人类行为识别的。但是,视频不仅仅是一个动作,它提供了一个以人为中心的描述视频。通过关注以人为中心的描述,我们忽略了关于场景、对象、事件以及视频中可用场景或对象的属性的信息。而SOA[34]有分类o场景、对象和操作,据我们所知,它是不可公开的。此外,HVU有更多的类别,如表3所示。不是加法的重要研究问题之一在最近关于动作识别的作品中,Essed很好地利用了视频中的其他上下文信息。HVU数据集使评估学习和知识转移的效果成为可能.不同的任务,如允许将视频中的对象识别的学习转移到动作识别,反之亦然。总之,HVU可以帮助视觉社区,带来更多有趣的东西整体视频理解的解决方案。我们的数据集中于识别用户生成的视频中的场景、对象、动作、属性、事件和概念。

表2:不同类别的HVU训练集的统计数据。标签和注释数量最多的类别是对象类别。

表3:HVU数据集与其他公开可用的视频识别数据集在每个类别的#标签方面的比较。请注意,SOA不是公开的。

3.1 HVU统计方法

        HVU由572k视频组成。用于培训、验证和测试拆分的样本数量见表1。数据集由修剪过的视频剪辑组成..在实践中,视频的持续时间S与最长10秒的长度不同。HVU有6个主要类别:场景、对象、动作、事件、属性和概念。总共有3457个标签,约有3457个标签。用于TH的9M注释E培训、验证和测试集。平均每个标签有2112个注释。我们描述了每个Labe的注释、标签和注释的数量的类别分布。我在图中。2.我们可以观察到,对象类别具有最高的标签和注释配额,这是由于视频中的对象丰富。尽管有最高的标签配额和注释,对象类别不具有每个标签比率的最高注释。然而,每个标签的2112个注释的平均数量是每个标签的合理数量的训练数据,标签。场景类别没有大量的标签和注释,这是由于两个原因:数据集的修剪视频和视频的短持续时间。这一分布情况对于动作类别来说有点相同。训练集的每个类别的数据集统计数据如表2所示。

3.2 集合和标签

        建立一个大规模的视频理解数据集是一项耗时的任务..在实践中,创建大规模视频数据集通常最耗时的任务有两个:(a)d采集和(B)数据注释。最近流行的数据集,如ActivityNet、Kinetics和YouTube-8M,都是从YouTube等互联网来源收集的。关于这些数据集的注释,u通常使用半自动众包策略,其中人类手动验证来自网络的爬行视频。我们采取了类似的策略,在技术上与红色不同数据收集和注释的成本。由于YouTube-8M[3]、动力学-600[25]和HACS[56]的分类多样性,我们对用户生成的视频感兴趣,我们使用这些视频。电子数据集作为HVU的主要来源。请注意,所有上述数据集都是动作识别数据集。

        手动为大量视频添加多个语义类别(即数千个概念和标签)有两个主要缺点,(a)手动注释容易出错,因为一个人无法注意到视频中的每一个细节,这会导致标签错误并且很难根除;(b)由于视频的数量和时间长度。克服在这些问题上,我们采用两阶段框架HVU注释。在第一阶段,我们使用Google Vision AI[1]和Sensifai视频标签API[2]来获取视频的粗略注释。api预测30个标签根据视频。我们保持api的概率阈值相对较低(∼30%)作为避免虚假拒绝的保证视频中的标签。在第二阶段,我们应用人类验证是否移除任何可能标记错误的噪音标签并添加api可能丢失的标记一些类似视频的推荐标签。

        在具体的HVU人类验证任务中,我们使用了三个不同的团队(Team-A、Team-B和TeamC),共有55个人类注释器。团队-A致力于数据集的分类。这个团队建立了基于从API预测中获得的标签的视觉意义和定义的分类。B队和C队是核查小组,执行三项任务。它们(a)核实录像的标签通过观看每个视频和标记错误的标签;(b)通过观看每个标签的视频来检查标签,并标记错误的视频;(c)如果某些标签丢失,则将我们的本体中的标签添加到视频中.为了确保TeamB和Team-C都清楚地了解标签和相应的视频,我们要求他们使用Team-A提供的标签定义。为上述三项任务团队B通过所有的视频并提供第一轮干净的注释。然后,Team-C审查了Team-B的注释,以保证ANN的准确和干净版本Otions.验证过程平均每个视频剪辑需要-100秒的训练有素的工人。通过将机器生成的标签和由人类注释器进行验证,HVU数据集c超过一组不同的标签与干净的注释。在使用第一步中,机器生成的标签可以帮助我们覆盖比人类在合理时间内记住并标记的标签数量更多的标签。

        为了确保我们每个标签有一个平衡的样本分布,我们考虑了至少50个样本的数量。图4显示了在HVU中同时发生的语义相关类别的t-SNE[29]可视化。

图4:在HVU中,不同的标签往往在语义上同时发生在这里,我们可视化了基于标签共生的t-SNE[29]关系,而不使用视频内容。

 

3.3 分类系统

        根据Google和SensifaiAPI的预测标签,我们发现在清洗前获得的标签数量大约是-10K。这些服务可以识别带有跨越标签的视频对场景、对象、事件、属性、概念、标识、情感和行为进行分类。如前所述,我们删除分布不平衡的标签,最后,细化标签以获得最后的分类法使用Word Net[30]本体。细化和修剪过程旨在保持标签的真实分布。最后,我们要求人类注释者对标签进行分类。主要有6个语义类别,即场景、对象、动作、事件、属性和概念。

        
        事实上,每个视频都可能被分配到多个语义类别。大约100K的视频有所有的语义类别。与SOA相比,几乎一半的HVU视频都有场景标签。目标和行动在一起。图3显示了主要类别的不同子集的百分比。

图3:视频中6个主要语义类别的不同子集的覆盖范围。16.4%的视频有所有类别的注释。

 

4. 整体外观与时序网络

        我们首先简要讨论了视频分类的最新3D ConvNet,然后提出了新的“整体外观与时间网络”(HATNet),用于多任务和多标签vidEO分类。

4.1 3D-ConvNets

        三维ConvNet的设计是为了处理视频剪辑中可用的时间线索,并被证明是高效的性能方面的视频分类。3D ConvNets利用空间和时间信息在一条管道里。在本工作中,我们选择了三维ResNet[46]和STCnet[8]作为我们的三维CNN基线,在动力学和UCF101上有竞争结果。来衡量多标签上的性能..在HVU数据集上,我们对所有标签使用平均精度(MA P)。我们还报告行动类别和其他类别的表现(对象、场景、事件、属性和概念)分别。所有方法之间的比较可以在表4中找到。这些网络是用二元交叉熵损失来训练的。

表4:HVU数据集上不同体系结构的MAP(%)性能。所有模型的主干ConvNet是ResNet18。

 

4.2 多任务学习3D-ConvNet

        本文研究的另一种处理HVU数据集的方法是用多任务学习或联合训练方法解决问题。如我们所知,HVU数据集由高-级别类别,如对象、场景、事件、属性和概念,因此这些类别中的每一个都可以像单独的任务一样处理。在我们的实验中,我们定义了两个任务,(a)动作类分类和(B)多标签分类。因此,我们的多任务学习网络训练有两个目标函数,即单标签动作分类和多标签分类f。或物体、场景等。基本网络是STCnet[8],它为每个任务的结束提供了两个独立的Conv层(参见图5)。在本实验中,我们使用ResNet18作为主干网奥克为STCnet。训练的全部损失来自:

        对于标记分支,我们使用二进制交叉熵损失,因为它是一个多标签分类和软最大损失的动作识别分支,因为它是一个单一的标签分类。

图5:多任务神经网络配置,应用于HVU数据集上。

 

4.3 2D/3D HATNet

        我们的“整体外观与时间网络”(HATNet)是一个时空神经网络,它以一种新颖的方式提取时间和外观信息,以最大限度地利用这两个来源。信息和视频识别的效率。提出这种方法的动机深植于需要在整体视频识别中处理不同层次的概念.由于我们处理的是静止的物体、动态的场景、不同的属性以及不同的人类活动,我们需要一个深层的神经网络,它能够专注于不同层次的语义信息。我们提出了一种灵活的方法,在像Image Net这样的大型图像数据集上使用二维预训练模型,在像动力学这样的视频数据集上使用三维预训练模型,以确定训练过程,但模型可以从零开始训练,因为它也显示在我们的实验中。所提出的HATNet能够利用外观和节奏学习时空特征表示的层次结构神经模块。

        外观神经模块。在HATNet设计中,我们使用具有2D卷积(2D Conv)块的2D ConvNet来提取视频剪辑中单个帧的静态线索。既然我们的目标是识别物体,在操作的同时,有必要在网络中有这个模块来更好地处理这些概念。具体来说,我们使用2DConv来捕获空间结构框架。

        时态神经模块。在HATNet体系结构中,3D卷积(3DCon v)模块处理处理一批帧中交互的时间线索。3DConv的目的是捕获相对时间i。帧之间的信息。为了有效地理解动态场景和人类活动,在网络中进行三维卷积是至关重要的。我们使用ResNet18/50三维模块和二维模块,使它们具有相同的空间核大小,从而可以在网络的任何中间阶段将外观和时间分支的输出结合起来。

        图6显示了我们如何将2D Conv和3D Conv分支结合起来,并使用合并和还原块在HATNet的中间阶段融合特征映射。直觉上,把外表和技术结合起来功能是视频理解的补充,这个融合步骤的目的是将它们压缩成一个更紧凑和更健壮的表示。在实验部分,我们将更详细地讨论关于HATNet的设计,以及我们如何在二维和三维神经模块之间应用合并和还原模块。在我们广泛的实验支持下,我们证明HATNet是对整体视频记录的补充包括理解场景的动态和静态方面以及人类行动识别。在我们的实验中,我们还对基于HATNet的多任务学习进行了测试。基于r到3D-ConvNets的多任务学习在第4.2节中讨论。HATNet与Slow Fast[13]网络有一些相似之处,但也有许多不同。慢速Fast使用两个3D-CNN网络作为一个缓慢和快速的分支..网络有一个3D-CNN分支来处理运动和动态信息,一个2D-CNN分支来处理静态信息和外观。HATN在三维和二维卷积块之间,ET还有跳过与M&R块的连接,以利用更多的信息。

表6:在不同的动作识别数据集上评估HVU和动力学数据集对迁移学习泛化能力的性能(MAP%)比较。所有训练有素的模特如果数据集是3D-ResNet18。

 

        2D/3D HATNet设计。该HATNet包括两个分支:第一个是具有合并和还原块的3D-Conv块,第二个分支是2D-Conv块。在每个2D/3D块之后,我们合并该特性从每个块映射并执行信道约简,这是通过应用1×1×1卷积来完成的。给定2D Conv和3D Conv的第一个块的特征映射,它们各有64个通道.我们首先将这些映射串联起来,得到128个通道,然后应用1×1×1卷积与64个核进行信道约简,得到一个具有64个通道的输出。合并和还原它是在3D和2D分支中完成的,并独立地持续到最后一次与两个分支合并。

        在我们的实验中,我们使用3D-ResNet和STCnet[8]作为HATNet的骨干。STCNet是一种具有时空信道相关模块的三维网络模型,它改进了三维技术网络性能显著。我们还必须对2D分支做一个小的更改,并在第一个2D Conv之后删除池层,以便在2D和3D分支之间保持类似的特征映射大小,因为我们使用了112×112作为输入分辨率大小。

5. 实验

        在这一部分中,我们解释了我们的实验的实现细节,然后展示了每种方法在多标签视频识别上的性能。我们还比较了大规模数据集HVU和动力学之间的迁移学习能力。最后,我们讨论了我们的方法的结果和三种具有挑战性的h的最佳方法乌曼行动和活动数据集。对于我们所有的实验和比较,我们使用RGB帧作为ConvNet模型的输入。对于我们提出的方法,我们要么使用16或32帧长视频剪辑a这是对训练模型的单一输入。我们使用Py Torch框架来实现,所有的网络都是在一台具有8个V100NVIDIA GPU的机器上进行训练的。

5.1 HVU结果

        在表4中,我们报告了HV U验证集上不同的简单或多任务学习基线和HATNet的总体性能。所报告的性能是所有的平均精度。标签/标签。利用同一管道中的外观和时间信息的HATNet达到了最佳性能,因为识别对象、场景和属性需要外观m其他基线没有的odule。利用HATNet,我们证明了将3D(时间)和2D(外观)卷积块结合起来可以学习到更健壮的推理能力。

5.2 基于HVU的多任务学习

        由于HVU数据集是一个多任务分类数据集,因此比较不同深度神经网络在多任务学习范式中的性能也是很有趣的。为了这个,我们使用了与上一次实验相同的体系结构,但使用了不同的最后一层卷积来观察多任务学习性能,参见图5。我们有两个目标:分类和标记(对象、场景、属性、事件和概念)。在表5中,我们比较了没有多任务学习头的标准训练和多任务学习网络。

        多任务学习方法获得更高的表现。在单个任务上,如预期的那样,与所有类别的标准网络学习作为一项任务进行比较。因此,在一个实际的多任务视频数据集上的这个初始结果激励了视频分类中更有效的多任务学习方法的研究。

 

5.3 迁移学习:HVU与Kinetics

        在这里,我们研究了迁移学习的能力与HVU数据集。我们比较了使用动力学和使用HVU的预训练3D-ResNet18的结果,然后对UCF101、HMDB51和KIN进行了微调。etics.显然,深度3D-ConvNet的预训练有很大的好处,然后在较小的数据集上对其进行微调(即。HVU、动力学、UCF101和HMDB51)。如表6所示,m在我们的HVU数据集上预先训练的odels的表现明显优于在动力学数据集上预先训练的模型。此外,对HVU的预训练也可以提高动力学的结果。

5.4 UCF、HMDB、Kinetics比较

        在表7中,我们将HATNet的性能与UCF101、HMDB51和动力学的最新方法进行了比较..对于我们的基线和HATNet,我们在两个单独的设置中使用预训练:一个带有HV。你和另一个有动力学,然后微调目标数据集。对于UCF101和HMDB51,我们报告了所有三个分裂的平均精度。我们使用ResNet18/50作为所有人的骨干模型我们的网络有16和32个输入帧。HATNet在HVU上进行了预训练,32帧输入在所有三个具有标准网络主干的数据集上都取得了优异的性能,并且没有铃声和响声Stles。请注意,在动力学上,HATNet即使以ResNet18为骨干ConvNet的性能几乎与由双3D-ResNet50训练的慢速Fast相当。在表7中,Slow Fast具有更好的性能d在其体系结构中使用双3Dresnet101,但是HATNet具有小得多的骨干具有可比的结果。

表7:UCF101、HMDB51测试集和动力学验证集的最新性能比较。在UCF101和HMDB51上的结果是平均mAP超过三个分裂,而动力学-400是T在验证集上的OP-1MAP。为了进行公平的比较,这里我们报告了只使用RGB帧作为输入的方法的性能。*Slow Fast使用具有更大主干的3D-ResNet的多个分支。

 

6. 结论

        本工作介绍了“整体视频理解数据集”(HVU),这是一个大规模的多任务,多标签视频基准数据集,具有全面的任务和动画?。它包含572k视频i总共有9M ANNOTA?选项,它被丰富地标记在3457个标签上,包括场景、对象、动作、事件、属性和概念分类。我们相信HVU数据集作为一个im?重要的源学习通用视频表示,这将使许多现实世界的应用程序。此外,我们提出了一种新的网络体系结构,HATNet,它结合了2D和3D ConvNets在为了通过多任务和多标签学习以端到端的方式学习鲁棒的时空特征表示。我们相信,我们的工作将激发新的研究思路,以实现整体发展不理解。对于未来的计划,我们将把数据集扩展到100万个具有相似丰富语义标签的视频,并为其他重要任务提供注释,如活动和对象检测和视频字幕。

        致谢:这项工作得到了DBOF博士奖学金和GC4佛兰芒人工智能项目的支持,以及KIT:DFG-PLUM COT项目。Mohsen Fayyaz和Juergen Gall得到了DFG项目的财政支持ECTGA1927/4-1(研究单位为2535)和ERC开始赠款ARCA(677650)。我们还要感谢Sensifai让我们访问视频标记API进行数据集准备。

 

REFERENCES

[1] Google vision ai api. cloud.google.com/vision. 5

[2] Sensifai video tagging api. www.sensifai.com. 5

[3] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev, George Toderici, Balakrishnan Varadarajan, and Sudheendra Vijayanarasimhan. Youtube-8m: A large-scalevideo classifification benchmark. arXiv:1609.08675, 2016. 3, 4

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!