A Simple yet Effective Way for Improving the Performance of GANs

我怕爱的太早我们不能终老 提交于 2019-12-27 03:01:25

A Simple yet Effective Way for Improving the Performance of GANs

摘要

作者提出了一种简单而有效的方法,在不增加训练开销或修改网络结构的情况下提高生成对抗网络的性能。该方法在判别器处采用了一种新的级联抑制(CR)模块,迭代提取多个非重叠特征。CR模块支持判别器对真实图像和生成的图像进行有效区分,并对判别器进行了较强的惩罚。为了欺骗包含CR模块的判别器,生成的图像更接近真实图像。由于CR模块只需要几个简单的向量运算,因此可以很容易地应用于现有框架,且训练代价极少。

Introduction

GAN的训练不稳定,且对超参数敏感。改进方法:
(1)提出了新的生成器和判别器结构
需要修改网络结构,无法广泛应用
(2)定义新的损失函数或正则化项
如增加梯度化正则项、权重归一化;通过增加辅助损失函数,将GAN与自监督学 习结合,但增加了训练代价;增加一项正则化项以最大化图像间的距离与向量距离的 比[17]

[17] Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, and Ming-Hsuan Yang. Mode seeking generative adversarial networks for diverse image synthesis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1429–1437, 2019.

GAN可以看作是图像到单个变量值结果的内积运算,会忽略与权值向量垂直的特征空间部分,因此无法捕获复杂的高维特征空间。
在这里插入图片描述
作者的贡献:
(1)在不增加训练开销和修改网络结构的情况下,提高GAN性能
(2)提出了一种新的CR模块,该模块可以指导判别器考虑图像的非重叠特性,从而对真实图像和生成的图像进行鉴别。通过带有CR模块的判频器对生成器进行强惩罚,可提高GAN的表现和FID(FID反映了真实图像和生成图像间的差异)

2. Preliminaries

2.1 Generative adversarial networks

G(D)最小化(最大化)损失,称之为对抗性损失
在这里插入图片描述

conditional GANs:添加条件c,例如分类标签或文本条件,以监督数据生成过程,可以选择要生成的图像类别
在这里插入图片描述

2.2 Revisit the Fully Connected Layer

要使用公式1和公式2来训练鉴别器,鉴别器应该输出单个标量值。为此,在最后一层,鉴别器通常使用一个全连通层,该层有一个单独的输出通道,其作用类似于嵌入向量w(即权向量)与通过多个卷积层得到的图像特征向量v之间的内积
判别器在预测对抗性损失的概率值时,只考虑与w平行的特征空间。难题在于鉴别器难以对生成器进行有效的惩罚。如图2,即使产生器产生的图像质量较低,且具有被忽略的特征空间,鉴别器也无法区分真实图像和生成的图像。

在这里插入图片描述

3. Proposed Method

3.1 Cascading rejection module

全连接层生成单个标量值:
在这里插入图片描述
v: feature vector 、 w:embedding vector
被忽略的特征可以用下式表示:
在这里插入图片描述
通过利用上式v^与另一个权向量w的内积所得到的附加概率值来最小化竞争损失,使得鉴别器能够考虑被忽略的特征空间。

作者提出的CR模块,迭代进行内积和向量拒绝过程。
如图3,v1是CR模块的输入,vi(i=2,3…N)是迭代向量拒绝,pi(i=1,2…N)表示vi来自真实数据的概率
在这里插入图片描述

判别器LD和发生器LD的对抗性损失LG可以改写成
在这里插入图片描述
在这里插入图片描述
由于迭代内积过程和向量拒绝过程都是简单的向量操作,因此所提出的CR模块不会增加训练开销。实际操作也只需要在鉴别器的最后一个全连接层后附加CR模块。

3.2 Conditional Cascading Rejection module

将CR模块引入cGANs,称为cCR模块。

wc由条件决定
在这里插入图片描述
cCR模块用wc+wi代替wi

在这里插入图片描述
第i个向量拒绝过程由下式表达:
在这里插入图片描述

4. Experiments

4.1 Implementation details

Datasets : CIFAR-10、 LSUN、Celeb-HQ、Tiny-ImageNet
压缩成64*64
采用hinge version的对抗性损失:
在这里插入图片描述
采用Adam优化器,learning rate = 0.0002
CIFAR-1: batch=64 迭代100k
Celeb-HQ and LSUN : batch=32 迭代100k
iny-ImageNet: batch=64 迭代400k

4.2 Baseline models

Baseline : cGANs

在这里插入图片描述

4.3 Comparison of Sample Quality

评价方法

frechet inception distance(FID)

在这里插入图片描述

结果

取不同N值,结果见表3
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.4 Imagetoimage translation with CR module

CycleGAN + CR module

没有在鉴别器的最后一层上执行全局池化层。相反,在CR模块中,我们使用1*1的卷积层(相当于全连接层)来预测每个像素的N个概率。
在这里插入图片描述
在这里插入图片描述

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!