Analyzing and Improving the Image Quality of StyleGAN (StyleGAN2 :分析和改善StyleGAN的图像质量)

北战南征 提交于 2019-12-18 08:31:09

NVIDIA 实验室在 styleGAN1 之后所做了改进,论文标题: Analyzing and Improving the Image Quality of StyleGAN (分析和改善StyleGAN的图像质量),本文是论文的翻译,因为作者本人水平有限,部分地方翻译可能有不妥当之处,还请读者不吝赐教,相互交流,一起进步。

摘要

基于样式的GAN架构(StyleGAN)在数据驱动的无条件生成图像建模中产生了最新的结果。我们将揭露和分析其一些特征工件,并提出模型架构和训练方法方面的更改以解决这些问题。特别是,我们重新设计了生成器归一化,重新审视了渐进式增长,并对生成器进行了正则化,以鼓励从潜矢量到图像的映射中的良好条件。除了改善图像质量,该路径长度调节器还带来了额外的好处,即发生器变得非常易于反转。这使得可以可靠地检测图像是否由特定网络生成。我们进一步可视化了发生器如何充分利用其输出分辨率,并确定了容量问题,从而激励我们训练更大的模型以进一步提高质量。总体而言,我们改进的模型在现有的分发质量指标和感知的图像质量方面都重新定义了无条件图像建模的最新技术水平。

1.介绍

通过生成方法,尤其是生成对抗网络(GAN)[15]生成的图像的分辨率和质量正在迅速提高[23,31,5]。目前,用于高分辨率图像合成的最新方法是StyleGAN [24],它已被证明可以在各种数据集上可靠地工作。我们的工作重点是修复其特有的伪像并进一步提高结果质量。

StyleGAN [24]的显着特征是其非常规的生成器体系结构。映射网络不是将输入的潜在代码 zZz \in Z 仅馈送到网络的开头,而是将其转换为中间的潜在代码 wWw \in W。细微变换然后产生通过自适应实例规范化(AdaIN)控制合成网络g的层的样式[20、9、12、8]。另外,通过向合成网络提供额外的随机噪声图来促进随机变化。已经证明[24,38],该设计使中间潜空间W的纠缠比输入潜空间Z的纠缠小得多。在本文中,我们将所有分析仅集中在W上,因为从综合网络的角度来看,W是相关的潜在空间。

许多观察者已经注意到由StyleGAN [3]生成的图像中的特征伪影。我们确定了造成这些假象的两个原因,并描述了消除这些假象的体系结构和培训方法的变化。首先,我们研究常见的斑点状伪像的起源,并发现生成器创建它们是为了规避其体系结构中的设计缺陷。在第2节中,我们重新设计了生成器中使用的规范化,该规范化消除了工件。其次,我们分析了与稳定增长相关的伪影[23],该伪影在稳定高分辨率GAN训练方面非常成功。我们提出了一种可实现相同目标的替代设计-训练从关注低分辨率图像开始,然后逐渐将焦点转移到越来越高的分辨率-而不在训练期间更改网络拓扑。这种新设计还使我们能够对所生成图像的有效分辨率进行推理,结果证明该分辨率低于预期,从而导致了容量的增加(第4节)。

使用生成方法产生的图像质量的定量分析仍然是一个具有挑战性的话题。Fr’echet初始距离(FID)[19]测量InceptionV3分类器的高维特征空间中两个分布的密度差异[39]。精确度和召回率(P&R)[36、27]通过显式量化分别类似于训练数据的生成图像的百分比和可以生成的训练数据的百分比来提供额外的可见性。我们使用这些指标来量化改进。

FID和P&R均基于分类器网络,最近已显示该分类器网络侧重于纹理而不是形状[11],因此,度量标准无法准确地捕获图像质量的所有方面。我们观察到,作为估计潜在空间插入质量的方法而引入的知觉路径长度(PPL)度量[24]与形状的一致性和稳定性相关。在此基础上,我们对合成网络进行了正则化处理,以支持平滑映射(第3节),并实现了质量的明显提高。为了抵消其计算费用,我们还建议不那么频繁地执行所有正则化,因为这样做可以在不影响有效性的情况下进行。

在这里插入图片描述
图1.实例归一化导致StyleGAN图像中出现类似水滴的伪影。这些在生成的图像中并不总是很明显,但是如果我们查看生成器网络内部的激活,则问题始终存在,在所有从64x64分辨率开始的特征图中。这是困扰所有StyleGAN图像的系统性问题。

最后,我们发现,使用新的路径长度正则化生成器将图像投影到潜在空间W的效果比原始StyleGAN显着更好。这具有实际意义,因为它使我们能够可靠地判断是否使用特定的生成器生成了给定的图像(第5节)。

我们的实施和训练有素的模型可在以下位置获得 https://github.com/NVlabs/stylegan2

删除标准化的伪像

我们首先观察到StyleGAN生成的大多数图像都呈现出类似于水滴的特征性斑点状伪像。如图1所示,即使液滴在最终图像中可能不明显,它也存在于发生器的中间特征图中【在极少数情况下(可能占图像的0.1%),液滴会丢失,从而导致图像严重损坏。有关详细信息,请参见附录A】。在所有特征图中都出现了约64×64分辨率的异常现象,并在更高的分辨率下逐渐增强。如此一致的伪影的存在令人困惑,因为辨别器应该能够检测到它。

我们将问题精确定位到AdaIN运算中,该运算分别对每个特征图的均值和方差进行归一化,从而潜在地破坏了在特征量级中相对于彼此发现的任何信息。我们假设液滴伪像是生成器故意将信号强度信息偷偷经过实例归一化的结果:通过创建一个强的局部尖峰来支配统计数据,生成器可以像其他地方一样有效地缩放信号。我们的假设得到以下发现的支持:当从发生器中删除标准化步骤时,如下所述,液滴伪像会完全消失。

2.1 重新审视生成器结构

我们将首先修改StyleGAN生成器的一些细节,以更好地促进我们重新设计的归一化。就质量指标而言,这些变化本身对中性或小小的积极影响。

图2a显示了原始的StyleGAN合成网络g [24],在图2b中,我们通过显示权重和偏差并将AdaIN操作分解为其两个组成部分:归一化和调制,将图扩展为完整细节。这使我们可以重新绘制概念上的灰色框,以便每个框都指示网络中激活一种样式的部分(即“样式块”)。有趣的是,原始的StyleGAN在样式块中施加了偏见和噪音,使它们的相对影响与当前样式的大小成反比。我们观察到,通过将这些操作移到样式块之外(它们对规范化数据进行操作),可以获得更可预测的结果。此外,我们注意到,在进行此更改之后,仅对标准偏差进行归一化和调制就足够了(即,不需要均值)。偏置,噪声和归一化对恒定输入的应用也可以安全地消除,而没有明显的缺点。此变体如图2c所示,并作为我们重新设计的归一化的起点。

2.2 实例规范化的重新审视

考虑到实例规范化似乎过于强大,我们如何在保留样式特定比例效果的同时放松它呢?我们排除了批量归一化[21],因为它与高分辨率合成所需的小型迷你批处理不兼容。或者,我们可以简单地删除标准化。尽管实际上稍微改善了FID [27],但这会使样式的效果累积而不是按比例缩放,从而实质上失去了StyleGAN提供的可控制性(请参见视频)。现在我们将提出一种替代方法,该方法在保留可控性的同时去除了伪像。主要思想是基于归一化特征图的预期统计量进行归一化,但没有明确的强制。
在这里插入图片描述
图片2 我们重新设计了StyleGAN合成网络的架构。 (a)原始StyleGAN,其中A表示从W学习到的仿射变换,产生样式,而B表示噪声广播操作。 (b)完整细节相同的图。在这里,我们将AdaIN分解为显式归一化后再进行调制,然后对每个特征图的均值和标准差进行操作。我们还对学习的权重(w),偏差(b)和常数输入(c)进行了注释,并重新绘制了灰色框,以便每个框都激活一种样式。激活功能(泄漏的ReLU)总是在添加偏置后立即应用。 (c)我们对原始架构进行了一些改动,这些改动在正文中是合理的。我们从一开始就删除了一些多余的操作,将b和B的相加移到样式的有效区域之外,并仅调整每个要素图的标准偏差。 (d)修改后的体系结构使我们能够用“解调”操作代替实例规范化,该操作适用于与每个卷积层相关的权重。

回想一下,图2c中的样式块由调制,卷积和规范化组成。让我们首先考虑调制和卷积的影响。调制会根据传入样式缩放卷积的每个输入特征图,也可以通过缩放卷积权重来实现:
wi,j,k=siwi,j,k(1)w^{\prime}_{i,j,k}=s_i \cdot w_{i,j,k} \quad\quad (1) 其中w和分别是原始权重和调制权重,是与第i个输入特征图相对应的比例,而j和k分别枚举输出特征图和卷积的空间足迹。

现在,实例规范化的目的是从卷积输出特征图的统计信息中实质上消除s的影响。我们观察到可以更直接地实现这一目标。让我们假设输入激活是i.i.d.带有单位标准偏差的随机变量。经过调制和卷积后,输出激活的标准偏差为:
σj=i,kwi,j,k2(2)\sigma_j = \sqrt{\sum_{i,k} {w^{\prime}_{i,j,k}}^2} \quad\quad (2)
即,通过相应权重的L2L_2规范对输出进行缩放。随后的标准化旨在将输出恢复为单位标准偏差。基于等式2,如果我们通过1σj\frac{1}{\sigma_j}缩放(“解调”)每个输出特征图j,就可以实现这一点。或者,我们可以再次将其烘焙到卷积权重中:
wi,j,k=wi,j,k/i,kwi,j,k2+ϵ(3)w^{\prime\prime}_{i,j,k}=w^{\prime}_{i,j,k} / \sqrt{\sum_{i,k}{w^{\prime}_{i,j,k}}^2+\epsilon} \quad \quad (3)ϵ是一个小常数,以避免数值问题。

现在,我们已经将整个样式块烘焙到单个卷积层,其权重使用公式(1)和公式(3)基于s进行调整(图2d)。与实例规范化相比,我们的解调技术较弱,因为它基于关于信号的统计假设,而不是特征图的实际内容。类似的统计分析已在现代网络初始化程序中广泛使用【13,18】,但我们不知道它先前已被用来替代依赖数据的规范化。我们的解调也与权重归一化【37】有关,权重归一化【37】执行与重新设定权重张量相同的计算。先前的工作已将权重归一化确定为在GAN训练中是有益的。

我们的新设计消除了特征伪像(图3),同时保持了完全的可控制性,如随附视频所示。FID基本上不受影响(表1,A,B行),但从精度到召回率有明显的转变。我们认为这通常是合乎需要的,因为可以通过截断将召回率转换为精度,但事实并非如此[27]。在实践中,可以使用分组卷积有效地实现我们的设计,如附录B中所述。为了避免在公式3中考虑激活函数,我们对激活函数进行了缩放,以使其保留预期的信号方差。
在这里插入图片描述
图3.用解调代替规范化可从图像和激活中删除特征性伪像。
在这里插入图片描述
表1.主要结果。对于每次训练,我们选择FID最低的训练快照。我们使用不同的随机种子计算了每个指标10次,并报告了它们的平均值。“路径长度”列对应于基于W [24]中的路径端点计算的PPL度量。对于LSUN数据集,我们报告的路径长度不包含最初为FFHQ建议的中心作物。FFHQ数据集包含70k图像,我们在训练过程中显示了25M的鉴别器图像。对于LSUN CAR,相应的数字是893k和57M。

3.图像质量和发生器平滑度

尽管GAN度量标准(例如FID或Precision and Recall(P&R))成功地捕获了生成器的许多方面,但它们仍然在图像质量上仍然处于盲点。 例如,请参见图13和图14,它们对比了具有相同FID和P&R分数但总体质量明显不同的生成器。【我们认为,明显的不一致的关键在于要素空间的特定选择,而不是FID或P&R的基础。 最近发现,使用ImageNet [35]训练的分类器倾向于将决策更多地基于纹理而不是形状[11],而人类则强烈关注形状[28]。 这在我们的上下文中是有意义的,因为FID和P&R分别使用了InceptionV3 [39]和VGG-16 [39]的高级功能,这些功能是以这种方式进行训练的,因此有望偏向于纹理检测。 这样,具有强猫纹理的图像可能看起来比人类观察者所同意的彼此更相似,从而部分损害了基于密度的度量(FID)和多方面的覆盖度量(P&R)。

我们观察到了感知的图像质量和感知路径长度(PPL)之间的有趣关系[24],该指标最初是通过测量平均LPIPS距离[49]来量化从潜在空间到输出图像的映射平滑度的指标 在潜在空间中的小扰动下生成图像。 再次参考图13和14,较小的PPL(平滑的发生器映射)似乎与较高的整体图像质量相关,而其他指标则看不到该变化。 图4通过对在LSUN CAT上训练的StyleGAN上W上各个点周围的潜在空间进行采样而计算出的每个图像PPL分数,更加仔细地检查了这种相关性:低PPL分数的确表明了高质量的图像,反之亦然。 图5a显示了每个图像PPL得分的相应直方图,并揭示了分布的长尾巴。 该模型的总体PPL只是每个图像PPL得分的预期值。

在这里插入图片描述
图4.使用基线StyleGAN(表1中的配置A)感知路径长度和图像质量之间的联系。 (a)具有低PPL(<=10th<=10^{th}百分位数)的随机示例。 (b)PPL高的示例(>=90th>=90^{th}个百分点)。PPL分数与图像的语义一致性之间存在明显的相关性。

在这里插入图片描述
图5.(a)使用基线StyleGAN生成的单个图像的PPL分数分布(表1中的配置A,FID = 8.53,PPL = 924)。对应于图4的百分比范围以橙色突出显示。 (b)我们的方法(配置F)显着改善了PPL分布(显示具有相同FID = 8.53,PPL = 387的快照)。

为何PPL值低与图像质量相关联并不太明显。我们假设,在训练过程中,由于鉴别器会对残破的图像进行惩罚,因此生成器改进的最直接方法是有效地拉伸产生良好图像的潜在空间区域。这将导致低质量的图像被压缩到快速变化的较小的潜在空间区域中。虽然这可以在短期内提高平均输出质量,但累积的失真会损害训练动态,从而影响最终的图像质量。

这种经验相关性表明,在训练过程中通过鼓励低PPL来支持平滑的生成器映射可能会改善图像质量,我们在以下情况中会证明这种情况。由于所得的正则化项计算起来有些昂贵,因此我们首先描述适用于所有正则化技术的一般优化。

3.1 延迟正则化

通常,主要损失函数(例如,逻辑损失[15])和正则化项(例如,R1R_1 [30])被写为单个表达式,因此被同时优化。我们观察到,正规化项的计算频率通常比主要损失函数低得多,从而大大降低了它们的计算成本和整体内存使用量。表1中的C行显示,每16个迷你批仅执行一次R1R_1正则化不会造成任何损害,并且我们对新的正则化器也采用了相同的策略。附录B给出了实现细节。

3.2 路径长度正则化

生成器中的路径失真过大显然是不良的局部条件:W中的任何小区域在被g映射时都会被任意挤压和拉伸。与早期工作[33]一致,如果在潜在空间中的每个点处,小的位移都在图像空间中产生相同大小的变化,而与摄动方向无关,则我们认为从潜在空间到图像空间的生成器映射条件良好。

在单个wWw\in W 处,生成器映射g(w) : WwW\to w 的局部度量比例缩放性由雅克比矩阵 Jw=g(w)/wJ_w=\partial g(w)/ \partial w 捕获,处于保持向量预期长度(无论方向如何)的动机,我们将正则化为:
Ew,yN(0I)(JwTy2a)2(4)E_{w,y \sim N(0,I)}(\begin{Vmatrix}J_w^Ty\end{Vmatrix}_2-a)^2 \quad\quad (4)其中y 是具有正太分布像素强度的随机图像,wf(z)w \sim f(z) ,其中z是正太分布。我们在附录C 的显示,在高维上,当 JwJ_w 在任何 w 处都是正交的(最大到全局范围)时,此先验被最小化。正交矩阵会保留长度,并且不会沿着任何的维度压缩。

在这里插入图片描述
图6.渐进式增长导致“阶段”伪像。 在此示例中,牙齿不跟随姿势,而是与摄像机保持对齐,如蓝线所示

为了避免对雅克比矩阵进行显示计算,我们使用身份 JwTy=w(g(w)y)J_w^Ty=\nabla_w(g(w)\cdot y),该身份可以使用标准反向传播【6】有效的计算出来,在优化过程中,将常数 a 动态设置为长度 JWTy\begin{Vmatrix}J_W^T \cdot y\end{Vmatrix} 的长期指数移动平均值,从而使优化本身可以找到合适的全局尺度。

我们的正则器与Odena等人提出的Jacobian夹紧正则器密切相关。 [33]。实际的差异包括我们通过分析方法计算产品 ,而它们使用有限的差异来估算和 。应当注意,发生器[45]的频谱归一化[31]仅约束最大的奇异值,对其他奇异值没有约束,因此不一定导致更好的调节。

我们的正则器与Odena等人提出的Jacobian夹紧正则器密切相关。 [33]。 实际的差异包括我们通过分析来计算乘积 JWTyJ_W^T\cdot y,而它们使用有限的差异来估计δN(0,1)Z\delta \sim N(0,1) \in ZJWTyJ_W^T\cdot y。 应当指出,发生器[45]的频谱归一化[31]仅约束最大奇异值,对其他奇异值没有约束,因此不一定导致更好的调节。

在实践中,我们注意到路径长度正则化导致更可靠和始终如一的行为模型,从而使架构探索更加容易。图5b显示,路径长度正则化明显改善了每个图像PPL分数的分布。表1的D行表明,正则化可以按预期方式降低PPL,但是LSUN CAR和结构比FFHQ少的其他数据集中的FID和PPL之间存在折衷。此外,我们观察到,更平滑的生成器更易于反转(第5节)。

4.重新审视渐进性增长

渐进式生长[23]在稳定高分辨率图像合成方面非常成功,但是会导致其自身的特征失真。关键问题在于,逐渐增长的生成器似乎对细节的位置偏好很高。随附的视频显示,当牙齿或眼睛等特征在图像上平滑移动时,它们可能会停留在原位,然后跳到下一个首选位置。图6显示了一个相关的伪像。我们认为问题在于,在逐步增长的过程中,每个分辨率都会瞬间用作输出分辨率,迫使其生成最大频率细节,然后导致受过训练的网络在中间层具有过高的频率,从而损害了位移不变性[48]。附录A显示了一个示例。这些问题促使我们寻找一种替代配方,该配方将保留渐进式增长的优点而没有缺点。

4.1 替代网络架构

虽然StyleGAN在生成器(合成网络)和鉴别器中使用简单的前馈设计,但仍有大量工作致力于研究更好的网络体系结构。特别地,在生成方法的背景下,跳跃连接[34、22],残差网络[17、16、31]和分层方法[7、46、47]也被证明是非常成功的。因此,我们决定重新评估StyleGAN的网络设计,并寻找一种能够生成高质量图像而不会渐进增长的体系结构。

图7a显示了MSG-GAN [22],它使用多个跳过连接来连接发生器和鉴别器的匹配分辨率。修改了MSG-GAN生成器以输出mipmap [41]而不是图像,并且还为每个真实图像计算了类似的表示形式。在图7b中,我们通过对与不同分辨率对应的RGB输出的贡献进行上采样和求和来简化此设计。在鉴别器中,我们类似地将降采样后的图像提供给鉴别器的每个分辨率块。我们在所有上采样和下采样操作中都使用双线性滤波。在图7c中,我们进一步修改了设计以使用残差连接【(在残差网络架构中,两条路径的相加会导致信号方差加倍,我们可以通过乘以1 /√2来抵消。 这对于我们的网络至关重要,而在分类Resnet [17]中,问题通常被批处理归一化隐藏)】。此设计类似于LAPGAN [7],但没有Denton等人使用的每分辨率鉴别器。
在这里插入图片描述
图7:三种发生器(虚线以上)和鉴别器体系结构。 上和下分别表示双线性上和下采样。 在残差网络中,这些还包括1×1卷积以调整特征图的数量。 tRGB和fRGB在RGB和高维每像素数据之间转换。 配置E和F中使用的架构以绿色突出显示

表2比较了三种生成器架构和三种鉴别器架构:StyleGAN中使用的原始前馈网络,跳过连接和残差网络,所有这些网络都经过训练而没有渐进增长。为9种组合中的每种组合提供了FID和PPL。我们可以看到两个主要趋势:在所有配置中,生成器中的跳过连接都可以极大地提高PPL,而残差的判别器网络显然对FID有利。后者也许不足为奇,因为判别器的结构类似于分类器,在分类器中已知残差的架构会有所帮助。但是,残差的体系结构对生成器有害。当两个网络都是残差的时,唯一的例外是LSUN CAR中的FID。
在这里插入图片描述
表2.无渐进增长的生成器和鉴别器架构的比较。 具有输出跳过的生成器和残差鉴别符的组合对应于主结果表中的配置E。

在本文的其余部分,我们使用跳过生成器和残差鉴别器,而不使用渐进式增长。这对应于表1中的配置E,从表中可以看出,切换到此设置可以显着改善FID和PPL。

4.2 分辨率用法

我们要保留的渐进式增长的关键方面是,生成器将首先关注低分辨率功能,然后逐渐将注意力转移到更精细的细节上。图7中的体系结构使生成器可以以显着方式首先输出不受高分辨率层影响的低分辨率图像,然后随着训练的进行将焦点转移到高分辨率层。由于不以任何方式强制执行此操作,因此生成器仅在有益时才会执行此操作。为了分析实践中的行为,我们需要量化生成器在训练过程中对特定分辨率的依赖程度。

由于跳过生成器(图7b)通过显式求和多个分辨率的RGB值来形成图像,因此我们可以通过测量相应层对最终图像的贡献来估计相应层的相对重要性。在图8a中,我们绘制了每个tRGB层产生的像素值的标准偏差与训练时间的关系。我们计算w的1024个随机样本的标准差,并对值进行归一化,以使它们的总和为100%。

在这里插入图片描述
图8:每种分辨率对发生器输出的贡献取决于训练时间。 纵轴显示了不同分辨率的相对标准偏差的细目分类,而横轴对应于训练进度,以向鉴别器显示的数百万个训练图像进行测量。 我们可以看到,从一开始,网络就专注于低分辨率图像,并随着训练的进行逐渐将其注意力转移到较大分辨率上。 在(a)中,生成器基本上输出5122图像,并针对10242进行一些锐化;而在(b)中,较大的网络更多地关注高分辨率细节
在这里插入图片描述
表3:使用FID和PPL测量的LSUN数据集的改进。 我们对CAR进行了5700万幅图像的培训,对CAT进行了88M的培训,对CHURCH进行了48M的培训,对HORSE进行了100M的训练。

在培训开始时,我们可以看到新的跳过生成器的行为类似于渐进式增长-现在无需更改网络拓扑即可实现。因此,可以预期,最高分辨率将在培训结束时占主导地位。但是,该图表明实际上这没有发生,这表明生成器可能无法“充分利用”目标分辨率。为了验证这一点,我们手动检查了生成的图像,并注意到它们通常缺少训练数据中存在的某些像素级别的细节-图像可以描述为 5122512^2 图像的锐化版本,而不是真实的 102421024^2 图像。

这使我们假设网络中存在容量问题,我们通过将两个网络的最高分辨率层中的特征图数量加倍来进行测试【我们在第64264^2102421024^2号决议中将特征图的数量增加了一倍,同时保持网络的其他部分不变。 这样,生成器中可训练参数的总数增加了22%(25M→30M),而鉴别器中可训练参数的总数增加了21%(24M→29M)。】。 这使行为更符合预期:图8b显示了最高分辨率图层的贡献显着增加,表1 F行显示FID和Recall显着改善

表3在几个LSUN类别中比较了StyleGAN和我们改进的变体,再次显示了FID的明显改进和PPL的显着进步。 尺寸的进一步增加可能会带来更多好处。

5. 将图像投影到潜在空间

可以训练分类器以相当高的置信度检测GAN生成的图像[29、44、40、50]。 然而,鉴于进展的迅速,这可能不是持久的情况。 基于投影的方法的独特之处在于,它们可以以匹配的潜矢量的形式提供证据,说明图像是由特定网络合成的[2]。 随着合成图像质量的提高,它们的有效性也没有理由降低,这与基于分类器的方法不同,将来可能使用的线索较少。
在这里插入图片描述
图9.原始图像和投影图像之间的LPIPS距离。 生成的图像的距离直方图以蓝色显示,真实的图像以橙色显示。 尽管改进后的生成器具有更高的图像质量,但将生成的图像投影到其潜在空间W中要容易得多。在所有情况下都使用相同的投影方法。

事实证明,即使生成的图像质量更高,我们对StyleGAN的改进也使得使用基于投影的方法更容易检测生成的图像。我们通过计算原始图像和重新合成图像之间的LPIPS [49]距离为 DLPIPS[xgg1x]DLPIPS [x,g( \overline{g}^{-1}(x))] 来衡量投影成功的程度,其中x是被分析的图像,而g〜- 1表示近似投影操作。图9显示了使用原始StyleGAN和我们最好的架构的LSUN CAR和FFHQ数据集的这些距离的直方图,图10显示了示例投影。如后者所示,使用我们改进的架构生成的图像可以很好地投影到生成器输入中,从而可以明确地将它们归因于生成网络。使用原始StyleGAN,即使从技术上来说应该可以找到匹配的潜矢量,但实际上,潜空间似乎太复杂了,无法可靠地成功实现。我们具有更好的潜在空间W的改进模型受此问题的影响要小得多。
在这里插入图片描述
图10.示例图像及其投影和重新合成的对应图像。 对于每种配置,第一行显示目标图像,第二行显示相应的投影潜在矢量和噪声输入的合成。 顶部:使用基线StyleGAN,投影通常会找到与生成的图像相当接近的匹配,但尤其是背景与原始图像有所不同。 中:使用我们最好的架构生成的图像可以几乎完美地投影回生成器输入中,从而可以明确地归因于生成模型。 下图:投影的真实图像(来自训练集)显示出与原始图像明显的差异,正如预期的那样。 所有测试均使用相同的投影方法和超参数完成。

6.结论和未来的工作

我们已经在StyleGAN中确定并修复了多个图像质量问题,从而进一步改善了质量,并在多个数据集中大大提高了现有技术水平。在某些情况下,如所附视频所示,在运动中可以更清楚地看到这些改进。附录A包含使用我们的方法可获得的结果的更多示例。尽管质量有所提高,但与原始StyleGAN相比,使用基于投影的方法检测由我们的方法生成的图像更容易。

训练表现也有所提高。在102421024^2分辨率下,原始StyleGAN(表1中的配置A)在配备8个Tesla V100 GPU的NVIDIA DGX-1上以每秒37张图像的速度训练,而我们的配置E在61 img / s的速度下训练了40%。由于权重解调,惰性正则化和代码优化,大多数加速来自简化的数据流。配置F(大型网络)的训练速度为31 img / s,因此,其训练成本仅比原始StyleGAN高。使用配置F,FFHQ的总训练时间为9天,LSUN CAR的总训练时间为13天。

作为未来的工作,研究进一步改善路径长度正则化可能是富有成果的,例如,通过用数据驱动的特征空间度量代替像素空间 L2L_2 距离。

参考文献:

略~

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!