图像编码

Image Super-Resolution Using Deep Convolutional Networks 论文总结

我与影子孤独终老i 提交于 2019-12-08 17:53:26
Image Super-Resolution Using Deep Convolutional Networks 论文总结 提示: 文中用【】表示的是我没读懂的内容 文中用[]表示的是我不会翻译的内容,翻译都不会,基本上也不理解啦。 Abstract 摘要讲了讲论文写了些啥: 作者们提出了一种针对单图像超分辨的深度学习方法,即SRCNN。该方法直接学习低/高分辨率图像之间的端到端映射。映射是用一个低分辨率图像为输入,高分辨率图像为输出的深度卷积神经网络来表示的。 证明了传统基于稀疏编码的SR方法也可以看作是一个深度卷积网络。 传统方法是分别处理每个组件,而SRCNN联合优化所有层。 SRCNN具有轻量级的结构,同时有最先进的恢复质量,并且实现了快速的实际在线使用。 作者们探索了不同的网络结构和参数设置,以实现性能和速度之间的权衡。 SRCNN可以同时处理三个颜色通道,表现出更好的整体重建质量。 Introduction 超分辨率问题本质是不适定的( inherently ill-posed)或者说超分辨率是个欠定逆问题( underdetermined inverse problem)。意思就是超分辨率是个解不是唯一的问题,因为对于任何给定的低分辨率像素都存在多重解。对于这个问题通常用强先验信息约束解空间来缓解,为了学习强先验信息,现在最先进的方法大多基于例子的策略(example

BicycleGAN: Toward Multimodal Image-to-Image Translation - 1 - 论文学习,成对数据

让人想犯罪 __ 提交于 2019-12-06 00:08:38
Abstract 许多图像到图像的翻译问题是有歧义的,因为一个输入图像可能对应多个可能的输出。在这项工作中,我们的目标是在一个条件生成模型设置中建立可能的输出分布。将模糊度提取到一个低维潜在向量中,在测试时随机采样。生成器学习将给定的输入与此潜在编码映射到输出。我们明确地鼓励输出和潜在编码之间的连接是可逆的。这有助于防止训练期间从潜在编码到输出的多对一映射也称为模式崩溃问题,并产生更多样化的结果。我们通过使用不同的训练目标、网络架构和注入潜在编码的方法来探索此方法的几个变体。我们提出的方法鼓励了潜在编码模式和输出模式之间的双射一致性。我们提出了对我们的方法和其他变种在视觉真实性和多样性方面进行了一个系统的比较。 1 Introduction 深度学习技术在条件图像生成方面取得了快速的进展。例如,网络已经被用来填补缺失的图像区域[20,34,47],给灰度图像添加颜色[19,20,27,50],并从草图生成逼真的图像[20,40]。然而,这个领域的大多数技术都集中于生成单个结果。在这项工作中,我们模拟一个潜在结果的分布,因为许多这些问题可能是多模态。例如,如图1所示,根据云的模式和光照条件,夜间捕获的图像在白天可能看起来非常不同。我们追求两个主要目标:产生(1)视觉上真实的和(2)多样化的结果,同时保持对输入的忠实。 从高维输入到高维输出分布的映射具有挑战性

零基础,史上最通俗视频编码技术入门

╄→尐↘猪︶ㄣ 提交于 2019-12-04 23:20:46
本文引用了微信公众号“鲜枣课堂”的《视频编码零基础入门》文章内容。为了更好的内容呈现,引用和收录时内容有改动,转载时请注明原文来源信息,尊重原作者的劳动。 1、引言 如今我们所处的时代,是移动互联网时代,也可以说是视频时代。从快播到抖音,从“三生三世”到“延禧攻略”,我们的生活,被越来越多的视频元素所影响。 而这一切,离不开视频拍摄技术的不断升级,还有视频制作产业的日益强大。 此外,也离不开通信技术的飞速进步。试想一下,如果还是当年的56K Modem拨号,或者是2G手机,你还能享受到现在动辄1080P甚至4K的视频体验吗? 除了视频拍摄工具和网络通信技术升级之外,我们能享受到视频带来的便利和乐趣,还有一个重要因素,就是视频编码技术的突飞猛进。 视频编码技术涉及的内容太过专业和庞杂,市面上的书籍或博客多数都只是枯燥的技术概念罗列,对于新手来说读完依旧蒙逼是常态,本文将借此机会,专门给大家做一个关于视频编码的零基础科普。 ▼ 本文涉及概念较多,为了方便阅读,本文的内容目录对应如下: 1、引言 2、系列文章 3、图像基础知识 3.1)什么是像素? 3.2)什么是PPI? 3.3)颜色在计算机里是如何表示的? 4、视频编码基础知识 4.1)视频和图像和关系 4.2)未经编码的视频数据量会有多大? 4.3)什么是编码? 5、视频编码的实现原理 5.1)视频编码技术的基本原理 5.2

【中英】【吴恩达课后编程作业】Course 4 -卷积神经网络 - 第四周作业

不羁的心 提交于 2019-12-03 22:39:04
【中文】【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第四周作业 - 人脸识别与神经风格转换 上一篇: 【课程4 - 第四周测验】 ※※※※※ 【回到目录】 ※※※※※下一篇: 【待撰写-课程5 - 第一周测验】 资料下载 本文所使用的资料已上传到百度网盘 【点击下载(555.65MB)】 ,提取码:zcjp ,请在开始之前下载好所需资料,底部不提供代码。 【博主使用的python版本:3.6.2】 第一部分 - 人脸识别 给之前的“ 欢乐家 ”添加人脸识别系统 这是第4周的编程作业,在这里你将构建一个人脸识别系统。这里的许多想法来自 FaceNet 。在课堂中,吴恩达老师也讨论了 DeepFace 。 人脸识别系统通常被分为两大类: 人脸验证 :“这是不是本人呢?”,比如说,在某些机场你能够让系统扫描您的面部并验证您是否为本人从而使得您免人工检票通过海关,又或者某些手机能够使用人脸解锁功能。这些都是 1:1 匹配问题。 人脸识别 :“这个人是谁?”,比如说,在视频中的百度员工进入办公室时的脸部识别视频的介绍,无需使用另外的ID卡。这个是 1:K 的匹配问题。  FaceNet可以将人脸图像编码为一个128位数字的向量从而进行学习,通过比较两个这样的向量,那么我们就可以确定这两张图片是否是属于同一个人。 在本节中,你将学到: 实现三元组损失函数。

程序员需要了解的硬核知识之压缩算法

﹥>﹥吖頭↗ 提交于 2019-12-03 17:08:21
此篇文章是《程序员需要了解的硬核知识》第五篇文章,历史文章请戳 程序员需要了解的硬核知识之内存 程序员需要了解的硬核知识之CPU 程序员需要了解的硬核知识之二进制 程序员需要了解的硬核知识之磁盘 之前的文章更多的介绍了计算机的硬件知识,会有一些难度,本篇文章的门槛会低一些,一起来看一下计算机中都有哪些 压缩算法 认识压缩算法 我们想必都有过 压缩 和 解压缩 文件的经历,当文件太大时,我们会使用文件压缩来降低文件的占用空间。比如微信上传文件的限制是100 MB,我这里有个文件夹无法上传,但是我解压完成后的文件一定会小于 100 MB,那么我的文件就可以上传了。 此外,我们把相机拍完的照片保存到计算机上的时候,也会使用压缩算法进行文件压缩,文件压缩的格式一般是 JPEG 。 那么什么是压缩算法呢?压缩算法又是怎么定义的呢?在认识算法之前我们需要先了解一下文件是如何存储的 文件存储 文件是将数据存储在磁盘等存储媒介的一种形式。程序文件中最基本的存储数据单位是 字节 。文件的大小不管是 xxxKB、xxxMB等来表示,就是因为文件是以字节 B = Byte 为单位来存储的。 文件就是字节数据的集合。用 1 字节(8 位)表示的字节数据有 256 种,用二进制表示的话就是 0000 0000 - 1111 1111 。如果文件中存储的数据是文字,那么该文件就是文本文件。如果是图形

h.264 去块滤波

拥有回忆 提交于 2019-12-03 12:15:46
本文转自: h.264 去块滤波 原作者: https://www.cnblogs.com/TaigaCon h.264 去块滤波 块效应及其产生原因 我们在观看视频的时候,在运动剧烈的场景常能观察到图像出现小方块,小方块在边界处呈现不连续的效果(如下图),这种现象被称为块效应(blocking artifact)。 首先我们需要搞清楚块效应产生的原因。h.264在编码过程中对像素残差进行了DCT变换,变换后得到的DCT系数是与每个像素都相关的,这些系数代表了被变换数据的基础色调与细节。h.264在DCT变换后对DCT系数进行了量化,量化能有效去除相邻像素间的空间冗余,也就是说会抹去元素数据的部分细节。比较理想的情况是量化抹去人眼无法识别的细节部分,但是在低码率的情况下就会导致原始数据的细节丢失过多。而且,DCT变换时基于块的,即将8x8或者4x4的像素残差进行变换后得到8x8或者4x4DCT系数,此时如果进行了低码率的量化,就会使得相邻两个块的相关性变差,从而出现块效应。 h.264的运动补偿加剧了由变换量化导致的块效应。由于运动补偿块的匹配不可能绝对准确,各个块的残差大小程度存在差异,尤其是当相邻两个块所用参考帧不同、运动矢量或参考块的差距过大时,块边界上产生的数据不连续就更加明显。 块效应主要有两种形式:一种是由于DCT高频系数被量化为0,使得强边缘在跨边界处出现锯齿状

h.264 去块滤波

匿名 (未验证) 提交于 2019-12-03 00:17:01
原作者: https://www.cnblogs.com/TaigaCon h.264 去块滤波 块效应及其产生原因 我们在观看视频的时候,在运动剧烈的场景常能观察到图像出现小方块,小方块在边界处呈现不连续的效果(如下图),这种现象被称为块效应(blocking artifact)。 首先我们需要搞清楚块效应产生的原因。h.264在编码过程中对像素残差进行了DCT变换,变换后得到的DCT系数是与每个像素都相关的,这些系数代表了被变换数据的基础色调与细节。h.264在DCT变换后对DCT系数进行了量化,量化能有效去除相邻像素间的空间冗余,也就是说会抹去元素数据的部分细节。比较理想的情况是量化抹去人眼无法识别的细节部分,但是在低码率的情况下就会导致原始数据的细节丢失过多。而且,DCT变换时基于块的,即将8x8或者4x4的像素残差进行变换后得到8x8或者4x4DCT系数,此时如果进行了低码率的量化,就会使得相邻两个块的相关性变差,从而出现块效应。 h.264的运动补偿加剧了由变换量化导致的块效应。由于运动补偿块的匹配不可能绝对准确,各个块的残差大小程度存在差异,尤其是当相邻两个块所用参考帧不同、运动矢量或参考块的差距过大时,块边界上产生的数据不连续就更加明显。 块效应主要有两种形式:一种是由于DCT高频系数被量化为0,使得强边缘在跨边界处出现锯齿状,称为梯形噪声;另一种经常出现在平坦区域

腾讯互动课堂(Tencent Interact Class,TIC)SDK 词汇表

匿名 (未验证) 提交于 2019-12-02 22:56:40
词汇表 https://cloud.tencent.com/document/product/266/11732 封装格式 封装格式(Format)是将已经编码压缩好的视频流和音频流按照一定的格式规范,放到一个文件中。对于网络点播而言,更加合适的术语应该叫“流媒体网络传输协议”。在互联网中使用最为广泛的协议为: MP4:非常经典的文件格式,iOS/Android/PC Web 三端支持度都很好。但是 MP4 的视频文件头太大,结构复杂;如果视频较长(比如长达数小时),则其文件头会过大,影响视频加载速度。所以其更适用于短视频场景。 HLS(HTTP Live Streaming):苹果公司力推的标准,iOS/Android端支持度较好,但 IE 的支持情况依赖 Flash 的二次开发工作(建议使用腾讯视频云的 Flash 播放器控件)。其精简的 m3u8 的索引结构可以规避 MP4 的索引慢问题,如果是用于点播,是非常不错的选择。 FLV:Adobe 公司所推的标准,在 PC 端有 Flash 的强力支持,但在移动终端只有 App 实现播放器才有可能支持(建议使用腾讯视频云的 Flash 播放器控件),大部分手机端浏览器均不支持。 视频编码相关术语 编码方式 编码方式(Codec)能够对数字视频进行压缩或者解压缩(视频解码)的程序或者设备。常见的编码方式包括: H.26X 系列,由

(转载)图像检索:基于内容的图像检索技术

Deadly 提交于 2019-11-28 12:28:21
图像检索:基于内容的图像检索技术 背景与意义 在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如, Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达 7.28亿 ,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。 图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR, Text Based Image Retrieval),另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。 基于文本的图像检索方法始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,比如图像中的物体、场景等

JPG 的图片格式详解

痞子三分冷 提交于 2019-11-28 06:41:12
JPG jpg全名是JPEG 。JPEG 图片以 24 位颜色存储单个光栅图像。JPEG 是与平台无关的格式,支持最高级别的压缩,不过,这种压缩是有损耗的。渐近式 JPEG 文件支持交错。 jpg功能   可以提高或降低 JPEG文件压缩的级别。但是,文件大小是以牺牲图像质量为代价的。压缩比率可以高达 100:1。(JPEG 格式可在 10:1 到 20:1 的比率下轻松地压缩文件,而图片质量不会下降。)JPEG 压缩可以很好地处理写实摄影作品。但是,对于颜色较少、对比级别强烈、实心边框或纯色区域大的较简单的作品,JPEG 压缩无法提供理想的结果。有时,压缩比率会低到 5:1,严重损失了图片完整性。这一损失产生的原因是,JPEG 压缩方案可以很好地压缩类似的色调,但是 JPEG 压缩方案不能很好地处理亮度的强烈差异或处理纯色区域。 jpg优缺点   优点:摄影作品或写实作品支持高级压缩。   利用可变的压缩比可以控制文件大小。   支持交错(对于渐近式 JPEG 文件)。   广泛支持Internet 标准。   由于体积小,jpg在万维网中被用来储存和传输照片的格式。   缺点:有损耗压缩会使原始图片数据质量下降。   当您编辑和重新保存 JPEG 文件时,JPEG 会混合原始图片数据的质量下降。这种下降是累积性的。   JPEG 不适用于所含颜色很少