看GAN如何一步步控制图像生成风格？详解StyleGAN进化过程

机器之心

2020-04-19 13:27机器之心官方账号

选自Medium

作者：Jonathan Hui

机器之心编译

参与：魔王、杜伟

GAN 能够有条不紊地控制其生成图像的风格吗？

你了解自己的风格吗？大部分 GAN 模型并不了解。那么，GAN 能够有条不紊地控制其生成图像的风格吗？

原版 GAN 基于潜在因子（latent factor）z 生成图像。通常，潜在因子 z 采样自正态或均匀分布，它们决定了生成内容的类型和风格。

基于此，我们需要解答以下两个重要问题：

为什么 z 是均匀或正态分布？

既然 z 包含元信息，那么它是否应在每个卷积层生成数据的过程中发挥更主要的作用？（而不是仅作为第一层的输入）

注意：本文将使用「风格」（style）来指代元信息，其包含类型信息和风格信息。

下图是 StyleGAN2 生成的图像：

潜在因子 z

机器学习中的潜在因子通常彼此独立，以简化模型训练过程。例如，身高和体重具备高度相关性（个子越高的人通常体重更大）。因此，基于身高、体重计算得到的身体质量指数（body mass index，BMI）较常用于衡量人体肥胖程度，其所需的训练模型复杂度较低。而彼此独立的因子使得模型更易于解释。

在 GAN 中，z 的分布应与真实图像的潜在因子分布类似。如果我们从正态或均匀分布中采样 z，则优化后的模型可能需要 z 来嵌入类型和风格以外的信息。例如，我们为军人生成图像，并基于男性化程度和头发长度这两个潜在因子来可视化训练数据集的数据分布。下图中缺失的左上角表示男性军人不允许留长发。

如果我们均匀采样此空间，则生成器会试图生成留长发的男性军人图像。这不会成功，因为我们没有相关的训练数据。换个角度来看，当采样使用正态或均匀分布时，模型学习的是哪些潜在因子呢？这似乎更加错综复杂了。正如 StyleGAN 论文所写的那样：「这导致了一定程度上不可避免的纠缠（entanglement）」。

在 logistic 回归中，我们利用基变换（change of basis）来创建二分类类别的线性边界。而 StyleGAN 使用一种叫做映射网络（mapping network）的深度网络，将潜在因子 z 转换成中间潜在空间 w。

从概念上来看，StyleGAN 将可进行均匀或正态分布采样的空间（下图中）扭曲成潜在特征空间（下图左），从而轻松生成图像。该映射网络旨在创建彼此独立的特征，以便生成器更容易地执行渲染，同时避免训练数据集中不曾出现的特征组合。

StyleGAN 引入映射网络 f，利用八个全连接层将 z 转换成中间潜在空间。w 可被视为新的 z (z』)。通过该网络，512 维的潜在空间 z 可被转换为 512 维的中间潜在空间 w。

基于风格的生成器

在原版 GAN 中，潜在因子 z 仅作为深度网络第一个层的输入。我们可能认为，随着网络的深入，z 的作用会逐渐消失。

而基于风格的生成器使用单独学得的仿射运算 A 在每一层中转换 w。转换后的 w 将作为风格信息作用于空间数据。

StyleGAN 论文最初使用的是 Progress GAN 网络，并重用了很多超参数，包括 Adam 优化器参数。然后研究者更改模型设计进行多次试验，查看模型性能是否有所改进。

第一个改进版本 (B) 用双线性采样（bilinear sampling）来替换判别器和生成器中的最近邻上采样/下采样。然后进一步调参，模型训练时间也会增加。

第二个改进版本 (C) 添加了映射网络和风格化（styling）。对于后者，AdaIN（自适应实例归一化）取代 PixelNorm 对空间数据执行风格化处理。

AdaIN 的定义如下：

在此过程中，首先对输入特征图应用实例归一化。然后，StyleGAN 利用风格信息对每个归一化空间特征图执行缩放，添加偏置（μ 和 σ 分别表示输入特征图 xᵢ 的平均差和标准差）。StyleGAN 计算每一层的风格值对 (y(s, i), y(b, i)) 作为 w 的缩放值和偏置值，从而将风格应用于空间特征图 i。归一化特征影响应用于空间位置的风格化程度。

在原版 GAN 中，第一层的输入是潜在因子 z。实验结果表明，向 StyleGAN 第一层添加可变输入毫无益处，因此将可变输入替换为常量输入。

至于改进版本 (D)，其第一层的输入被替换为学得的常数矩阵，矩阵维度为 4×4×512。

StyleGAN 论文中的「Style」指数据的主要属性，如姿势和身份。在改进版本 (E) 中，SytleGAN 向空间数据引入噪声，从而创建随机变化（stochastic variation）。

例如，实验中添加的噪声可以为头发（见下图）、胡茬、雀斑或毛孔创建不同的随机变化。

例如，对于 8×8 的空间层，创建一个 8×8 的矩阵，且其中元素包含不相关的高斯噪声（Gaussian noise）。该矩阵被所有特征图共享。但是 StyleGAN 为每个特征图分别学习一个单独的缩放因子，并将该因子与噪声矩阵相乘，之后再添加至前一层的输出。

噪声创建了渲染变体，与不包含噪声或噪声仅应用于特定分辨率的情况相比，其优势如下图所示。StyleGAN 论文还表示其缓解了其它 GAN 方法中常出现的重复模式问题。

总之，当风格被全局应用于特征图时，它覆盖图像的关键属性。噪声引入了像素级局部变化，并带来随机变化，从而生成特征的局部变体。

关于噪声如何导致不同的图像渲染结果，参见以下视频：

最后一个改进版本 (E) 涉及混合正则化。

风格混合与混合正则化

之前我们生成潜在因子 z，并作为生成风格的单一源头。而使用混合正则化后，我们转而使用另一个潜在因子 z₂，在达到特定空间分辨率之后再生成风格。

如下图所示，我们使用生成图像「source B」的潜在因子得到粗糙空间分辨率（4×4 到 8×8）的风格，使用「source A」的潜在因子得到精细空间分辨率的风格。因此，生成的图像具备 source B 的高级风格，如姿势、发型、脸型和眼镜，而生成图像中的所有颜色（眼睛、头发、光线）和更精细的人脸特征则来自 source A。

如下图所示，如果我们使用 source B 的中分辨率（16×16 到 32×32）风格，则生成图像从 source B 处继承到较小规模的人脸特征、发型和眼睛状态（睁开/闭上），而来自 source A 的姿势、脸型和眼镜则被保留。最后一列中，模型从 source B 中复制了高分辨率风格（64×64 到 1024×1024 分辨率），这主要影响图像的色调和微结构。

在训练过程中，一定比例的图像是使用两个随机潜码（latent code）生成的，而不是仅使用一个。

训练

与 CelebA-HQ 数据集相比，FFHQ（Flickr-Faces-HQ，高清人脸数据集）质量更高，覆盖范围更大，如年龄、种族、图像背景以及眼镜、帽子等配饰。在 StyleGAN 中，CelebA-HQ 数据集训练过程中使用 WGAN-GP 作为损失函数，而 FFHQ 数据集则使用非饱和 GAN 损失函数和 R₁正则化项，如下所示：

w 中的截断技巧

z 或 w 中的低概率密度区域可能不具备足以准确学习模型的训练数据。

因此，在生成图像时，我们可以避开这些区域，以变化为代价来换取图像质量的改进。这可以通过截断 z 或 w 来实现。在 StyleGAN 中，截断 w 即可实现此目标：

其中 ψ 表示风格缩放（style scale）。

但截断仅在低分辨率层上执行（比如 4×4 至 32×32 空间层，ψ = 0.7）。这可以确保不影响高分辨率细节。

当 ψ 为 0 时，它生成的平均人脸如下图所示。随着 ψ 值的调整，我们可以看到人物视线、眼镜、年龄、肤色、头发长度和性别等属性的变化，如从戴眼镜到不戴眼镜。

感知路径长度

StyleGAN 论文还提出一种度量 GAN 性能的新型指标——感知路径长度（perceptual path length）。GAN 逐步改变潜在因子 z 中的某个特定维度，进而可视化其语义。

此类潜在空间插值可以得到令人震惊的非线性视觉变化。例如，两端图像中均未出现的特征可能出现在中间图像中。这标志着潜在空间和变化因子具备高度相关性。因此，我们可以通过度量执行插值时的累积变化，来量化这些变化。

首先，我们使用 VGG16 嵌入来度量两个图像之间的感知差异。如果我们将潜在空间插值路径分割为线性片段，则可以对每个片段添加所有感知差异。差异值越低，则 GAN 图像的质量越高。详细数学定义参见 StyleGAN 论文。

StyleGAN 中存在的问题

StyleGAN 生成图像中存在类似水滴的斑状伪影，在生成器网络的中间特征图中此类伪影更加明显。这一问题似乎出现在所有 64×64 分辨率特征图中，且在分辨率更高的特征图中更为严重。

GAN 技术已经很成熟，现在我们可以很容易地放大图像，查看伪图像检测过程中异常图像模式出现的区域。

StyleGAN2 论文将这一问题归因于 AdaIN 中的实例归一化。AdaIN 原本用于风格迁移，迁移过程中输入的一些重要信息被丢失。

StyleGAN2 论文将这一发现表述如下：

我们认为问题出在 AdaIN 运算，它可以分别对每个特征图的均值和方差执行归一化，由此可能摧毁在特征的幅度中找到的任何彼此相关的信息。我们假设这种水滴状伪影出现的原因是生成器有意将信号强度信息传递通过实例归一化：通过创建主导统计数据的强局部尖峰，生成器可以像在其它地方一样有效缩放该信号。

此外，StyleGAN2 提出一种替代设计方案来解决渐进式增长导致的问题，以稳定高分辨率训练。

如上图所示，即使使用渐进式增长生成的人脸图像改变方向，其牙齿中缝（蓝线）没有发生变化。

在探讨 StyleGAN2 之前，我们先重新绘制 StyleGAN 设计图（下图右）。该设计的 AdaIN 模块同样分为两个模块，但此图添加了偏置，而原始设计图中省略了这一项。（注意，目前模型设计没有任何改变）

StyleGAN2

权重解调（weight demodulation）

在实验结果的支持下，StyleGAN2 做出了以下改变：

移除（简化）初期处理常数的方式；

归一化特征时无需求均值；

将噪声模块从风格模块中移出。

然后，StyleGAN2 利用权重解调简化模型设计，如下图所示。它重新访问实例归一化设计 (Norm std)，意图用另一种不会造成水滴状伪影的归一化方法取代它。下图右是使用权重解调得到的新设计。

权重解调增加了以下改变：

1. 调制 (mod std) 后是卷积 (Conv 3×3)，二者组合起来可用于缩放卷积权重，并实现为上图右中的 Mod。（这并未改变模型设计）

其中 i 是输入特征图。

2. 然后用 Demod 对权重执行归一化：

归一化后的新权重是：

该公式添加较小值 ε，以避免数值不稳定问题。尽管从数学角度来看，这与实例归一化不同，但它对输出特征图执行归一化后得到标准差，并实现了与其它归一化方法类似的目标（即令训练过程更加稳定）。实验结果表明，水滴状伪影问题得到了解决。

StyleGAN2 做出的改进

现在，我们来看 StyleGAN2 的改进版本。下图总结了多种模型改动，以及对应的 FID 分数改进情况（FID 分数越小，模型性能越好）。

懒惰式正则化（Lazy regularization）

StyleGAN 对 FFHQ 数据集应用 R₁正则化。懒惰式正则化表明，在成本计算过程中忽略大部分正则化成本也不会带来什么坏处。事实上，即使每 16 个 mini-batch 仅执行一次正则化，模型性能也不会受到影响，同时计算成本有所降低。

路径长度正则化

如前所述，路径长度可用于度量 GAN 性能。一个可能的麻烦是，插值路径上不同片段之间的路径距离变动很大。简而言之，我们希望连续的线性插值点之间的图像距离类似。也就是说，潜在空间中的位移会导致图像空间中出现同样幅度的变化，而这与潜在因子的值无关。因此，我们添加一个正则化项，如下所示：

当图像空间中的变化与预计位移不同时，成本增加。图像空间中的变化基于梯度计算得到，预计位移则近似于目前的运行平均值。

此处不再详述，代码参见：https://github.com/NVlabs/stylegan2/blob/7d3145d23013607b987db30736f89fb1d3e10fad/training/loss.py，读者可以据此运行 debugger。

渐进式增长

StyleGAN 使用渐进式增长来稳定高分辨率图像的训练。上文我们提到了渐进式增长的问题，StyleGAN2 寻求一种替代设计，允许深度较大的网络也能具备良好的训练稳定性。ResNet 使用残差连接（skip connection）来实现这一目标。因此 StyleGAN2 探索了残差连接设计和其它与 ResNet 类似的残差概念。对于这些设计，我们使用双线性滤波器对前一层执行上采样/下采样，并尝试学习下一层的残差值。

下图展示了判别器和生成器之间存在残差连接的 MSG-GAN 模型。

下表展示了不同方法的性能提升情况。

大型网络

在这些改动之后，我们进一步分析了高分辨率层对图像生成的影响。StyleGAN2 论文度量了不同模型层输出图像的变化。下图左表示每个层对生成图像的贡献，横轴表示训练过程。

在训练初期，低分辨率层占主导地位。然而，随着更多训练迭代的完成，高分辨率层（尤其是 1024 × 1024 层）的贡献不如预计的多。研究者怀疑这些层的容量不够大。事实的确如此，当高分辨率层中的特征图数量翻倍时，其影响力显著上升（右图）。

原文链接：https://medium.com/@jonathan_hui/gan-stylegan-stylegan2-479bdf256299

本文为机器之心编译，转载请联系本公众号获得授权。

------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

查看原图 110K