生成对抗网络(GAN)

paper原文:Generative Adversarial Networks

生成对抗网络GAN
概览
模型组成
- 生成模型 G
- 鉴别模型 D
核心公式
算法
图示化描述
全局最优点 Pg Pdata
效果与对比
展望

概览

做了什么

提出了新的模型对抗模型
- 通过生成模型(G)与鉴别模型(D)之间的相互竞争。即D模型要将 G 生成假数据调出，而 G 模型要设法“骗过”D 模型的鉴别，最终提高 G 模型的生成质量
- 通过实验当 D 最终结果稳定在 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 时 G 模型生成效果最好。

优势

不需要使用Markov 决策框架
框架移植性强，可以用于各种训练、优化算法，以及现有的模型中。
两个模型都仅仅使用了后向传播与dropout算法
G 模型生成样本只需要使用前向传播

不足

在当时未能明确找到代表 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 产物
D 与 G 的训练必须同步，换句话说 G 不能脱离 D 的训练而更新多次。（防止出现Helvetica scenario问题）

模型组成

生成模型 G

通过噪声（一维序列）生成样本，尽力混淆 D 模型的鉴定。
随机噪声通过多层感知机生成
通过多层感知机输入 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 映射到数据空间 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
训练 G 来最小化概率 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ .使得从噪声生成的数据足够真实。

鉴别模型 D

D 主要是学习数据来源到底是来自真实数据，还是生成数据。
本质为二分类器
数值 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 代表 x 是由真实数据获得并非由 G 生成的概率
同样使用多层感知机结构
训练 D 来最大化概率 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，使得 D 精于鉴别噪声数据

核心公式

min G max D V (D, G) = E x p d a t a (x) [l o g D (x)] + E x p x (x) [l o g (1 - D (G (z)))]

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
分析：

要让整体最小，即让两个期望都小
当输入图片与模型 D 一定时，前面的期望数值是一定的。
这时让整体下降就要依赖后面的期望
注意期望一定层面上反馈了这组数据的平均性能
所以当后面值低意味着，生成的图片必须足以以假乱真
这恰恰就符合了 GAN 的目标
最佳情况：一个看起来超假的图片，经过生成器，“以假乱真”
只要G 的变化足够慢，D 就会被保持在一个较优的水平上
这个思路模仿了SML/PCD算法的思路

算法

这里写图片描述
上方为 GAN 网络的核心算法，几点注意事项

k为一个超参数，定义让 D 在每次训练步骤中，优先 G 增长的次数。k 越大 D 的鉴别能力越强，最后生成 G 就越像。但是需要耗费的资源开销也会增大
m为 mini-batch超参数，定义对多少输入以及生成样本做梯度下降。这是一种借鉴全局梯度下降与随机梯度下降两者优点的做法。当 m = 样本数量退化为全局梯度下降。m =1 退化为随机梯度下降
D 的训练核心是最大化鉴别梯度
G 的训练核心是最小化鉴别梯度，即提高混淆能力

图示化描述

图示中:

蓝点线代表 D 模型的 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 在 x 域的分布
黑点线代表正常样本在 x 区域的分布
绿点线代表 G 模型生成样本在 x 域的分布
下面的 z->x 表达了生成模型 G 通过噪音 z 向混淆数据 x 生成的映射情况

从过程上：

a的过程是算法刚开始，D 模型还不能很好的分辨出x 分布中的数据来源。
a->b是算法中的最里层的k步训练。训练模型 D，使其鉴伪能力加强
到b过程蓝点线已经平滑，证明 D 已经具有较稳定的分辨性能。
b->c的过程是后面训练 G 模型的过程。此时 D 性能一定，训练 G 向能最小化 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 方向发展。
到c过程下 G 的生成分布逐渐像元数据靠拢。G 的噪声的生成映射关系也向中间集中
c->d的过程是上面算法逐渐训练的过程
最后到d，G 已经有足够的混淆能力，D 认为数据一半是原始数据，一半为真实数据。此时 G 模型已优化到最大性能。

全局最优点 Pg = Pdata

也可认为上面核心公式结果为0.5

首先我们假定：

D * G (x) = p d a t a ( x ) p d a t a ( x ) + p g ( x )

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
这里

pdata(x) $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 是来自真实数据样本数，

pg(x) $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 是来自生成数据的样本数.

这里我们可以对核心函数 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 进行改写：

这里首先把 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 式根据各自的数据集求积分得到全局情况。同时由于对那个变量积分对积分结果无影响。所以把 z更名为x然后做抽象:

y = a l o g (y) + b l o g (1 - y) (4)

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
当

(a,b) $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 都属于二维实数平面时4式在

[0,1] $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 内的最大值点为

aa+b $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
同时我们也可以从期望的角度重写 V 式：

此时当

pg=pdata $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 时，

D∗G(x)=12 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,

C(G)=log12+log12=−log4 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
我们此时可以将 C 式子改写为

因为当 G 数据分布于 D 分布不均时，就需要C 就需要加上关于

pdata $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 与

pg $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
各自的KL 散度，也就是

定值加上两者的 JSD 散度
由于JS 散度不为负数且当 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 时为0（分布相同）.
于是得出题设的答案