Temporal

2020 ICML 全部论文

∥☆過路亽.° 提交于 2020-12-01 11:33:20
All Papers 38 - ShapeCaptioner: Generative Caption Network for 3D Shapes by Learning a Mapping from Parts Detected in Multiple Views to Sentences "Zhizhong Han (University of Maryland, College Park); Chao Chen (Tsinghua University); Yu-Shen Liu (Tsinghua University)*; Matthias Zwicker (University of Maryland)" 46 - VideoIC: A Video Interactive Comments Dataset and Multimodal Multitask Learning for Comments Generation Weiying Wang (Renmin University of China)*; Jieting Chen (Renmin University of China); Qin Jin (Renmin University of China) 53 - Image Inpainting Based on Multi-frequency

【强化学习】马尔科夫决策过程之Bellman Equation(贝尔曼方程)

拥有回忆 提交于 2020-11-26 13:54:28
前面总结了马尔科夫决策过程之Markov Processes(马尔科夫过程),见下文:马尔科夫决策过程之Markov Processes(马尔科夫过程) 马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程),见下文:马尔科夫决策过程之Markov Reward Process(马尔科夫奖励过程) 本文总结一下马尔科夫决策过程之Bellman Equation(贝尔曼方程) 1Bellman Equation for MRPs 首先我们从value function的角度进行理解,value function可以分为两部分: 见下面的推导公式: 我们直接从第一行到最后一行是比较好理解的,因为从状态s到状态s+1,是不确定,还是之前的例子。 比如掷骰子游戏,当前点数是1的情况下,下一个状态有可能是1,2,3,4,5,6的任意一种状态可能,所以最外层会有一个期望符号。 如果我们跟着一直推下来的话:有疑问的会在导出最后一行时,将G(t+1)变成了v(St+1)。其理由是收获的期望等于收获的期望的期望。参考叶强童鞋的理解。 则最后我们得到了针对MRP的Bellman方程: 通过方程可以看出v(s)由两部分组成,一是该状态的即时奖励期望,即时奖励期望等于即时奖励,因为根据即时奖励的定义,它与下一个状态无关。 这里解释一下为什么会有期望符合

Temporal Action Detection(时序动作检测)之R-C3D论文详解

ⅰ亾dé卋堺 提交于 2020-11-20 07:30:05
  本篇文章是基于《R-C3D:Region Convolutional 3D Network for Temporal Activity Detection》的详解,欢迎批评指正。     动作检测(Action Detection)主要用于给分割好的视频片段分类,但在实际中视频多是未分割的长视频,对于长视频的分割并且分类任务叫做时序动作检测(Temporal Action Detection)。给定一段未分割的长视频,算法需要检测视频中的动作片段,包括开始时间、结束时间和动作类别。一段视频可以包含一个或多个相同或不同的动作片段。   Action Recognition和Temporal Action Detection之间的关系和Image Classification和Object Detection之间的关系很像。基于Image Classification产生了例如VGG等网络模型,这些模型在Object Detection中提取目标特征提供很大帮助。同样,Action Recognition相关的模型(例如C3D等)也被广泛用于Temporal Action Detection中提取相关动作特征。   由于Temporal Action Detection和Object Detection存在相似性,很多Temporal Action

Flink 1.11 与 Hive 批流一体数仓实践

对着背影说爱祢 提交于 2020-11-18 17:47:41
导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行整合。 本文主要分享在 Flink 1.11 中对接 Hive 的新特性,以及如何利用 Flink 对 Hive 数仓进行实时化改造,从而实现批流一体的目标。主要内容包括: · Flink 与 Hive 集成的背景介绍 · Flink 1.11中的新特性 · 打造 Hive 批流一体数仓 一、 Flink 与 Hive 集成背景 为什么要做 Flink 和 Hive 集成的功能呢?最早的初衷是我们希望挖掘 Flink 在批处理方面的能力。众所周知,Flink 在流计算方面已经是成功的引擎了,使用的用户也非常多。在 Flink 的设计理念当中,批计算是流处理中的一个特例。也就意味着,如果 Flink 在流计算方面做好,其实它的架构也能很好的支持批计算的场景。在批计算的场景中,SQL 是一个很重要的切入点。因为做数据分析的同学,他们更习惯使用SQL 进行开发,而不是去写 DataStream 或者 DataSet 这样的程序。 Hadoop 生态圈的 SQL 引擎,Hive 是一个事实上的标准。大部分的用户环境中都会使用到了 Hive 的一些功能,来搭建数仓。一些比较新的 SQL 的引擎

ECCV 2020 论文大盘点-人员重识别(ReID)篇

女生的网名这么多〃 提交于 2020-11-15 08:04:32
本文盘点ECCV 2020 中所有与人员再识别(Person Re-Identification,ReID)相关的论文,总计 24 篇,其中两篇Oral 论文,15篇已经或者将开源代码。 这一领域可称为时视频监控领域的核心技术,已经成为近几年的研究热点,其中跨域的ReID和如何利用非标签数据的无监督方法吸引的研究学者众多。 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 论文合集下载,分类盘点进行中 跨域人员 重识别 Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification 作者 | Yang Zou, Xiaodong Yang, Zhiding Yu, B.V.K. Vijaya Kumar, Jan Kautz 单位 | 卡内基梅隆大学;英伟达 论文 | https://arxiv.org/abs/2007.10315 代码 | https://github.com/NVlabs/DG-Net-PP(404) 备注 | ECCV 2020 Oral Generalizing Person Re-Identification by Camera-Aware Invariance Learning and Cross-Domain Mixup 作者 |

论文笔记及代码复现:STGCN-基于图卷积时空神经网络在交通速度中的预测

独自空忆成欢 提交于 2020-11-14 08:01:21
1:论文信息 来自IJCAI 2018的一篇论文:《Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting 》 原始论文地址链接 Pytorch代码实现 1.1: 论文思路 使用Kipf & Welling 2017的近似谱图卷积得到的图卷积作为空间上的卷积操作,时间上使用一维卷积TCN对所有顶点进行卷积,两者交替进行,组成了时空卷积块,在加州PeMS和北京市的两个数据集上做了验证。论文中图的构建方法并不是基于实际路网,而是通过数学方法构建了一个基于距离关系的网络。 1.2: 摘要和引言总结 在交通研究中,交通流的基本变量,也就是速度、流量和密度( 实际中,还有排队长度,时间占有率,空间占有率,车头时距等多个变量 ),这些变量通常作为监控当前交通状态以及未来预测的指示指标。根据预测的长度,主要是指预测时间窗口的大小,交通预测大体分为两个尺度:短期(5~30min),中和长期预测(超过30min)。大多数流行的统计方法(比如,线性回归)可以在短期预测上表现的很好。然而,由于交通流的不确定性和复杂性,这些方法在相对长期的预测上不是很有效。 中长期交通预测上的研究可以分为两类:动态建模和数据驱动的方法 。 动态建模方法 :使用了数学工具(比如微分方程

ECCV 2020 论文大盘点-人员重识别

北城以北 提交于 2020-11-14 04:00:04
本文盘点ECCV 2020 中所有与人员再识别(Person Re-Identification,ReID)相关的论文,总计 24 篇,其中两篇Oral 论文,15篇已经或者将开源代码。 这一领域可称为时视频监控领域的核心技术,已经成为近几年的研究热点,其中跨域的ReID和如何利用非标签数据的无监督方法吸引的研究学者众多。 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 论文合集下载,分类盘点进行中 跨域人员重识别 Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification 作者 | Yang Zou, Xiaodong Yang, Zhiding Yu, B.V.K. Vijaya Kumar, Jan Kautz 单位 | 卡内基梅隆大学;英伟达 论文 | https://arxiv.org/abs/2007.10315 代码 | https://github.com/NVlabs/DG-Net-PP(404) 备注 | ECCV 2020 Oral Generalizing Person Re-Identification by Camera-Aware Invariance Learning and Cross-Domain Mixup 作者 |

AV1解码器模型

自闭症网瘾萝莉.ら 提交于 2020-10-30 01:21:44
这篇文章可以作为AV1规范中与解码器型号和级别有关的部分的简介,本文的其余部分描述了一些AV1基本概念,AV1解码器模型,并提供了开发它时做出决策的原因。有关解码器模型的更多详细信息,请阅读AV1规范。 文 / Andrey Norkin 原文链接: https://norkin.org/research/av1_decoder_model/ 为什么编解码器需要解码器模型 大多数现代视频编解码器都具有某种形式的解码器模型。在MPEG-2中,它被称为视频缓冲验证器(VBV);在H.264 / AVC和HEVC / H.265中,它可以称为假设参考解码器(HRD)。解码器模型提高了互操作性。解码器模型允许确认一个比特流是否可以被一个特定的解码器解码。这些模型还可以向解码器提供关于何时开始解码帧以能够及时显示它的指令。 通常来说,视频解码器声明支持某个配置文件和级别。配置文件可以指定有关比特深度和色度二次采样的视频格式,以及解码器需要支持的以解码比特流的一组编码工具。级别描述了视频比特流的定量特征,例如分辨率,帧速率和比特率。对于视频编解码器生态系统而言至关重要的一点是,表明支持某个级别的解码器是否能够解码符合该级别要求的任何比特流,并且内容提供商和编码器制造商可以检查其生成的流是否符合这些要求。 为了实现这些目标,由开放媒体联盟(AOM

AI研习丨陈松灿:自监督学习的最新进展与展望

不羁的心 提交于 2020-10-29 08:52:56
http://dy.163.com/v2/article/detail/F6QSA34N0511PEBT.html   转自 CAAI会员中心   摘 要   当前我们虽已身处大数据时代,但代价高昂、不易获取的标记数据依旧是机器学习发展的瓶颈。相比而言,无标记数据廉价且易获取,因此,如何高效利用它们一直是学者们关注的焦点。最近,一种无监督学习的新范式——自监督学习已开始受到广泛关注,其旨在减少对大量标记/ 注释数据的需求。为此本文围绕该学习范式作出简要回顾及展望,并力图从一个新的视角来考察该范式,以期为后续研究提供一些洞察。   关 键 字   机器学习;自监督学习;多视图学习;数据增广      陈松灿   自监督学习的最新进展与展望   0 引言   目前机器学习技术已获得了令人印象深刻的进展,尤其是深度学习已在计算机视觉和自然语言处理等多个领域取得了突破。然而,它仍存在许多不足。例如,当前许多机器学习技术(如分类)的成功大都处在一个封闭、静态的环境下,即训练数据和测试数据来自相同的标记和特征空间。但更实际的场景通常是动态、开放和非平稳的,如无人驾驶、医疗诊断等。在此类场景下,一些意外情形常会出现,致使这些现有模型往往难以奏效,甚至变得无用。为迎接这些挑战,学界开始探索诸如安全的AI(Safe AI-Open World/Dynamic Learning)、终身/连续/预测

AV1解码器模型

我只是一个虾纸丫 提交于 2020-10-14 21:27:27
这篇文章可以作为AV1规范中与解码器型号和级别有关的部分的简介,本文的其余部分描述了一些AV1基本概念,AV1解码器模型,并提供了开发它时做出决策的原因。有关解码器模型的更多详细信息,请阅读AV1规范。 文 / Andrey Norkin 原文链接:https://norkin.org/research/av1_decoder_model/ 为什么编解码器需要解码器模型 大多数现代视频编解码器都具有某种形式的解码器模型。在MPEG-2中,它被称为视频缓冲验证器(VBV);在H.264 / AVC和HEVC / H.265中,它可以称为假设参考解码器(HRD)。解码器模型提高了互操作性。解码器模型允许确认一个比特流是否可以被一个特定的解码器解码。这些模型还可以向解码器提供关于何时开始解码帧以能够及时显示它的指令。 通常来说,视频解码器声明支持某个配置文件和级别。配置文件可以指定有关比特深度和色度二次采样的视频格式,以及解码器需要支持的以解码比特流的一组编码工具。级别描述了视频比特流的定量特征,例如分辨率,帧速率和比特率。对于视频编解码器生态系统而言至关重要的一点是,表明支持某个级别的解码器是否能够解码符合该级别要求的任何比特流,并且内容提供商和编码器制造商可以检查其生成的流是否符合这些要求。 为了实现这些目标,由开放媒体联盟(AOM