运动估计

可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读

∥☆過路亽.° 提交于 2020-04-04 10:47:21
可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Balakrishnan_Visual_Deprojection_Probabilistic_Recovery_of_Collapsed_Dimensions_ICCV_2019_paper.pdf 摘要 我们介绍视觉投射:恢复沿维度折叠的图像或视频的任务。投影出现在各种情况下,例如长曝光摄影,动态场景被及时折叠以产生运动模糊图像,以及角部相机,其中场景中反射的光由于边缘遮挡器而沿空间维度折叠以产生 1D视频。反投影是不适定的——通常对于给定的输入有许多合理的解决方案。我们首先提出了一个捕捉任务模糊性的概率模型。然后,我们提出了一种以卷积神经网络为函数逼近器的变分推理策略。在测试时从推理网络中采样,从与给定输入投影一致的原始信号分布中产生可能的候选信号。我们在多个数据集上对该方法进行了评估。我们首先证明了该方法可以从空间投影中恢复人体步态视频和人脸图像,然后证明该方法可以从通过时间投影获得的剧烈运动模糊图像中恢复运动数字视频。 1. Introduction

通过自适应卷积的视频帧插值——CGB

我的梦境 提交于 2019-12-03 04:36:27
论文链接:https://arxiv.org/abs/1703.07514 论文题目: Video Frame Interpolation via Adaptive Convolution (通过自适应卷积的视频帧插值) 发表时间: 2017 年 CVPR 作者及其背景: Simon Niklaus, Long Mai, Feng Liu (波特兰州立大学 Portland State University ) 1.提出问题    传统视频帧插值方法是两步走:运动估计和像素合成。运动估计一般使用光流法 optical flow ,光流法的难点在于遮挡,污渍和突然的光环境变化。基 于流的像素综合也不能很可靠地处理遮挡的问题。 2.解决办法     之前的插值是两步走的:运动估计 motion estimation 和像素合成 pixel synthesis 。文章提出了一种鲁棒的视频帧插值方法,该方法使用深度卷积 神经网络实现帧插值,而无需将其明确划分为单独的步骤。这个方法中用来生成插值帧 interpolated frame 的“像素合 成”法 pixel synthesis ,就是作用在 两个输入图像之间局部卷积 local convolution ( 也就是说,对两张输入图片进行像素级别的卷积,可以生成一张 插值图片 )。这个卷积核作者号称可以捕获两帧图片之间的局部运动

CVPR2017部分论文简介

匿名 (未验证) 提交于 2019-12-03 00:22:01
文献 概述 研究内容 数据集 年份 运动物体检测内容 Learning Motion Patterns in Videos 学习视频中的运动模式,建立运动模式网络输入图像光流图输出视频中运动的物体,即使相机是移动的 运动相机检测运动物体 DAVIS 2017 Learning Features by Watching Objects Move 我们在视频中使用无监督的基于模式的分割来获取片段,我们将其用作“伪地真相”来训练一个卷积网络从一个帧中分割对象 运动物体检测 Optical Flow in Mostly Rigid Scenes 自然场景的光流是观察者运动和物体独立运动的结合,现有的算法通常侧重于在纯静态世界或一般无约束场景的光流的假设下恢复运动和结构。此文章从外观和物理约束中对移动对象进行显式的分割,在静态区域,我们利用强大的约束条件,在多个帧上联合估计摄像机的运动和场景的三维结构。https://www.youtube.com/watch?v=N7a3AZEi-c4视频 光流法估计运动物体 KITTI CVPR2017 MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving 无人驾驶中的目标检测。提出了一种新的多任务学习系统,它结合了外观和运动提示

视觉SLAM十四讲(1)

蹲街弑〆低调 提交于 2019-12-02 05:57:04
视觉SLAM十四讲(1)——初识SLAM 初识SLAM 经典视觉SLAM框架 初识SLAM SLAM(simultaneous localization and mapping),中文译作“ 同时定位与地图构建 ”。它是指搭载特定传感器的主体,在没有环境先验信息的情况下(不需要在环境中安装传感器),于 运动过程中 建立环境的模型,同时估计自己的运动。 如果这里的传感器主要为相机,以一定的速率拍摄周围的环境,形成一个连续的视频流,那么就称为“ 视觉SLAM ”。 SLAM的目的是解决“ 定位 ”与“ 地图构建 ”这两个问题。也就是说,一边要估计传感器自身的位置,一边要建立周围环境的模型。 在什么地方?——定位(自身的状态) 周围环境是什么样?——建图(外在的环境) 单目相机——照片(三维空间的二维投影):无法通过单张照片来计算场景中物体与我们之间的距离,因此必须移动相机改变其视角才能估计它的运动。当相机移动时,相片中的物体在图像上的运动就形成了视差。通过视差就能知道物体的远近,但这只是一个相对值,无法确定真实尺度,称为“尺度不确定性”。 双目相机——通过两个相机之间的距离(基线)来估计每个像素的空间位置。通过左右眼的差异,判断场景中物体与相机的距离。缺点是计算量大,消耗计算资源,与基线关系大(基线距离越大,能够测量到的就越远)。优点是既可以用在室内,亦可应用与室外。 深度相机—