生成对抗网络原理书(一种基于风格的生成对抗网络生成器架构)
生成对抗网络原理书(一种基于风格的生成对抗网络生成器架构)2.基于风格的生成器本文的生成器将输入的潜在代码嵌入到一个中间潜在空间中,这对变异因素在网络中的表现方式有深刻的影响。输入潜在空间必须遵循训练数据的概率密度,我们认为这导致了某种程度的不可避免的耦合。我们的中间潜在空间不受这种限制,因此可以解耦合。由于之前估计潜在空间解耦程度的方法并不能直接适用于具体情况,由此提出了两个新的自动化度量方法--感知路径长度和线性可分性--用于量化发生器的这些方面。使用这些指标,可以发现,与传统的生成器架构相比,本文的生成器实现了一个在不同变量因素中能得到更线性,更少耦合表现的效果。1.介绍最近,通过生成方法产生的图像的分辨率和质量,特别是生成对抗网络(generative anterparial networks,GAN)得到了迅速的提高。然而,生成器仍然像黑盒子一样运作,尽管最近做出了一些努力,但对图像合成过程的各个方面,例如随机特征的起源,仍然缺乏了解。
引用
T. Karras S. Laine and T. Aila "A Style-Based Generator Architecture for Generative Adversarial Networks " 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019 pp. 4396-4405 doi: 10.1109/CVPR.2019.00453.
摘要
借鉴风格转换文献,本文提出了一种生成性对抗网络的替代生成器架构。新的架构实现了高级属性(例如,在人脸上训练时的姿势和身份)的自动学习和无监督分离,以及生成图像中的随机变化(例如,雀斑、头发),并且它能够直观地、特定规模地控制合成。新的生成器改进了传统分布质量度量的最新技术,产生了明显更好的插值特性,并且更好地消除了潜在的变化因素。为了量化插值质量和解耦,本文提出了两种适用于任何生成器架构的新的自动化方法。最后,本文介绍了一个新的、高度变化和高质量的人脸数据集。
1.介绍
最近,通过生成方法产生的图像的分辨率和质量,特别是生成对抗网络(generative anterparial networks,GAN)得到了迅速的提高。然而,生成器仍然像黑盒子一样运作,尽管最近做出了一些努力,但对图像合成过程的各个方面,例如随机特征的起源,仍然缺乏了解。人们对潜在空间的特性也知之甚少,通常所展示的潜在空间插值也没有提供定量的方法来比较不同生成器之间的关系。
在风格转移文献的启发下,重新设计了生成器的结构,使其暴露出控制图像合成过程的新方法。本文的生成器从一个学习过的常数输入开始,在每个卷积层根据潜在代码调整图像的“风格”,从而直接控制不同尺度的图像特征的强度。与直接注入网络的噪声相结合,这种结构上的变化导致生成图像中的高级属性(例如姿态、身份)与随机变化(例如雀斑、头发)自动、无监督地分离,并实现了直观的特定规模的混合和插值操作。本文没有以任何方式修改鉴别器或损失函数,因此本文的工作与目前关于 GAN 损失函数、正则化和超参数的讨论是正交的。
本文的生成器将输入的潜在代码嵌入到一个中间潜在空间中,这对变异因素在网络中的表现方式有深刻的影响。输入潜在空间必须遵循训练数据的概率密度,我们认为这导致了某种程度的不可避免的耦合。我们的中间潜在空间不受这种限制,因此可以解耦合。由于之前估计潜在空间解耦程度的方法并不能直接适用于具体情况,由此提出了两个新的自动化度量方法--感知路径长度和线性可分性--用于量化发生器的这些方面。使用这些指标,可以发现,与传统的生成器架构相比,本文的生成器实现了一个在不同变量因素中能得到更线性,更少耦合表现的效果。
2.基于风格的生成器
通常潜在代码是通过输入层,即前馈网络的第一层提供给发生器的(图 1a)。通过省略该输入层和从一个可学习常量(图 1b,右)开始来分离该设计。给定一个在输入潜在空间 Z 的潜在编码 z、一个非线性的映射网络 f:Z→W 首先产生 w∈W(图 1b,左)。为简单起见,把两个空间的维度都设为 512(即 Z 和 W 都是 512),映射 f 是用一个 8 层的 MLP。可学习的仿射转换(A)将 w 转换成风格 y=(ys yb),控制自适应实例归一化(AdaIN)的操作。合成网络 g 的每个卷积层后的自适应实例归一化(AdaIN)操作被定义为
其中,每个特征图 xi 都被单独归一化,然后使用来自风格 y 的对应尺寸成分 ys i 和 yb i 来按比例变化和实现偏差,因此,y 的维度是该层特征图数量的两倍。
图 1 传统生成器与基于风格的生成器间的比较
将本文的方法与风格转移相比较,本文从矢量 w 而不是示例图像中计算出空间不变的风格 y。这里选择用“风格”一词来表示 y,因为类似的网络结构已经被用于前馈风格转换、无监督图像到图像的翻译和领域混合。与更普遍的特征转换相比,AdaIN 由于其效率和紧凑的表示方式,特别适合本文的目的。
最后,本文的发生器提供了一种直接的手段,通过引入显式的噪声输入来产生随机的细节。这些是由不相关的高斯噪声组成的单通道图像,进一步向合成网络的每一层提供一个专用的噪声图像。噪声图像通过学习每个特征的缩放系数广播到所有的特征映射上,然后添加到相应卷积的输出中,如图 1b 所示。
2.1生成图像的质量
在研究本文的发生器的特性之前,通过实验证明,重新设计并不影响图像质量,相反,它可以大大改善。表 1 给出了各种生成器架构在数据 CelebA-HQ 和 FFHQ 数据集上的 FID 效果。本文的基线配置(a)是 Karras 等人的渐进式 GAN 设置,除另有说明外,否则继承了网络和所有超参数。首先通过使用双线性上/下采样操作、更长时间的训练和调优超参数切换到一个改进的基线(b)。然后,通过增加映射网络和 AdaIN 操作(c)来进一步改进这个新的基线,并得到一个令人惊讶的发现,即该网络不再受益于将潜在代码输入到卷积第一层的这个操作。因此,本文简化了结构,去掉了传统的输入层,从学习到的 4×4×512 常量张量开始进行图像合成(d)。发现尽管合成网络只通过控制 AdaIN 操作的风格接收输入,但它能够产生有意义的结果,这一点相当了不起。
表 1 各种发生器设计的 FID(越低越好)。
在本文中,使用从训练集中随机抽取的 50 000 张图像来计算 FID,并报告在训练过程中遇到的最低距离
可以观察到,基于风格的生成器(e)比传统的生成器(b)明显提高了 FIDs,几乎达到了 20%,这证实了在平行工作中进行的大规模 ImageNet 测量。图 2 显示了使用生成器从 FFHQ 数据集生成的一组未策划的新图像。正如 FIDs 所证实的那样,平均质量很高,甚至像眼镜和帽子这样的配件也能成功合成。对于这个图,本文使用所谓的截断技巧,来避免极端地区的抽样 W。请注意,本文的生成器仅允许选择性地应用截断到低分辨率上 所以高分辨率细节不受影响。
图 2 由本文的基于风格的生成器产生的未经整理的图像集与 FFHQ 数据集
2.2现有技术
大部分关于 GAN 架构的工作都集中在通过使用多重鉴别器、多分辨率鉴别器或自注意等方法改进鉴别器。生成器方面的工作主要集中在输入潜在空间的精确分布上,或者通过高斯混合模型、聚类或鼓励凸性来塑造输入潜在空间。
最近的条件生成器通过一个单独的嵌入网络将类标识符送入生成器中的大量层,而潜在代码仍然通过输入层提供。少数作者考虑将潜在代码的一部分喂给多个生成器层。在平行工作中,Chen 等人使用 AdaINs 对发生器进行“自调制”,与本文的工作类似,但没有考虑中间的潜在空间或噪声输入。
3.基于风格的生成器的属性
3.1风格混合
为了进一步鼓励风格定位,本文采用了混合正则化,即在训练过程中使用两个随机的潜在代码生成给定百分比的图像。在生成这样的图像时,只需在合成网络中随机选择的一个点上从一个潜在代码切换到另一个潜在代码--称之为风格混合操作。具体来说,通过映射网络运行两个潜在代码 z1、z2,并让相应的 w1、w2 控制风格,使 w1 在交点之前应用,w2 在交点之后应用。这种正则化技术可以防止网络假设相邻的风格是相关的。
表 2 显示了在训练过程中启用混合正则化是如何大大改善定位的,这可以从测试时多个潜在代码混合的情况下改进的 FIDs 中看出。图 3 展示了通过在不同尺度上混合两个潜在代码而合成的图像示例。可以看到,每个风格的子集都控制着图像的有意义的高级属性。
表2
表 2 在不同比例的训练实例中,通过启用混合正则化训练的网络在 FFHQ 中的 FIDs。这里通过随机化 1...4 来对训练的网络进行压力测试
图3
图 3 两组图像是由它们各自的潜在代码(来源 A 和 B)生成的;其余的图像是通过从来源 B 复制指定的风格子集,并从来源 A 获取其余的风格而生成的
3.2随机变异
进一步考虑一下传统的发生器是如何实现随机变异的。鉴于网络的唯一输入是通过输入层,网络需要发明一种方法,在需要的时候从早期的激活中产生空间变化的伪随机数。这需要消耗网络的容量,并且隐藏生成信号的周期性是很困难且并不总是成功的,正如在生成的图像中常见的重复模式所证明的。本文的架构通过在每次卷积后添加每个像素的噪声,完全回避了这些问题。
图 4 显示了同一底层图像的随机实现,使用本文的生成器产生的不同的噪声实现。可以看到,噪声只影响了随机方面,而整体的组成和高层次的方面,如身份,则保持不变。图 5 进一步说明了对不同的层次子集应用随机变化的效果。
图4
图 4 随机变化的示例。(a)两幅生成的图像。(b)放大输入噪声的不同实现。虽然整体外观几乎相同,但个别毛发的位置非常不同。(c)每个像素在 100 个不同的现实中的标准偏差,突出了图像的哪些部分受到了噪声的影响。主要区域是头发、剪影和部分背景,但在眼睛的反射中也有有趣的随机变化。全局方面,如身份和姿势,不受随机变化的影响
图5
图 5 噪声输入在本文的发生器的不同层的影响。(a)噪声被应用于所有层。(b)没有噪声。(c)噪声只作用于精细层。(d)只有粗层的噪声。可以看到,人为地省略噪声会导致无特征的“绘画式”的外观。粗大的噪音导致头发大规模卷曲 和较大的背景特征的外观,而精细的噪音带来了更精细的头发卷曲,更精细的背景细节,以及皮肤的毛孔
3.3全局效应与随机性的分离
在本文基于风格的生成器中,风格会影响整个图像,因为完整的特征图是以相同的值进行缩放和偏移的。因此,全局性的效果,如姿势、灯光或背景风格可以被连贯地控制。同时,噪声被独立地添加到每个像素上并因此非常适合控制随机变化。如果网络试图控制,例如,使用噪声的姿势。这将导致空间上的不一致的决定,然后被鉴别器所惩罚。因此,在没有明确指导的情况下,该网络学会适当地使用全局和局部通道。
4.解耦研究
对于解耦有各种定义,但一个共同的目标是由线性子空间组成的潜在空间,每个子空间控制一个变量因子。然而,Z 中每个因素组合的采样概率需要与训练数据中的相应密度相匹配。如图 6 所示,这阻止了这些因素与典型数据集和输入潜在分布完全分离。
图6
图 6 具有两个变化因素(图像特征,例如,男性和头发长度)的示例。(a)缺少某些组合(例如,长发男性)。(b)这迫使从 Z 到图像特征的映射变得弯曲,从而禁止的组合在 Z 中消失,以防止对无效的组合进行采样。(c)从 Z 到 W 的学习映射能够“撤消”大部分扭曲
本文的生成器架构的一个主要好处是,中间潜在空间 W 不必支持根据任何固定分布进行采样;其采样密度是由学习到的分段连续映射 f(z)诱导的。这个映射可以被调整为“unwarp”W,使变化因素变得更加线性。生成器有这样做的压力,因为基于一个解耦表征时比基于耦合表征更容易产生现实的图像。因此,我们希望在无监督的情况下,即在事先不知道变化因素的情况下,训练会产生一个较少耦合的 W。
遗憾的是,最近提出的量化解耦的度量标准需要一个编码器网络,将输入图像映射到潜在代码。这些度量标准不适合本文的目的,因为本文的基线 GAN 缺乏这样的编码器。虽然可以为此添加一个额外的网络,但本文希望避免将精力投入到一个不属于实际解决方案的组件上。为此,描述了两种量化拆分的新方法,它们都不需要编码器或已知的变量因素,因此对任何图像数据集和生成器都是可计算的。
4.1感知路径长度
作为本文度量的基础,使用基于感知的成对图像距离,它被计算为两个 VGG16 嵌入之间的加权差,其中权重是适合的,使得度量符合人类感知相似度判断。如果把潜在空间插值路径细分为线性段,可以把这个分段路径的总感知长度定义为每段的感知差异之和,如图像距离度量所报告的那样。感知路径长度的一个自然定义是这个总和在无限细的细分下的极限。因此,在所有可能的端点上,潜在空间 Z 的平均感知路径长度是
计算 W 的平均感知路径长度是以类似的方式进行的:
其中唯一的区别是,插值发生在 W 空间。因为 W 空间的向量没有以任何方式被归一化,因此使用线性插值(lerp)。
表 3 显示,对于本文基于样式的带噪声输入的生成器,这个完整路径长度实际上更短,这表明 W 在感知上比 Z 更线性。然而,这个测量实际上有点偏向于输入潜在空间 Z。
表3
表 3 FFHQ 中各种发生器结构的感知路径长度和可分离性得分(越低越好)。本文对传统网络在 Z 中进行测量,对基于风格的网络在 W 中进行测量。使网络对风格混合有抵抗力,似乎会在一定程度上扭曲中间的潜在空间 W
表 4 显示了路径长度如何受到映射网络的影响。可以看到,传统的和基于风格的生成器都受益于映射网络,额外的深度通常会改善知觉路径长度以及 FIDs。
表4
表 4 FFHQ 中的映射网络的效果。方法名称中的数字表示映射网络的深度。可以看到,FID、可分离性和路径长度都受益于映射网络,这对基于风格的和传统的生成器架构都是如此。此外,一个较深的映射网通常比浅层的映射网络表现得更好
4.2线性分离
为了给生成的图像贴上标签,本文训练了一些二元属性的辅助性分类网络。 例如,区分男性和女性的脸。在具体的测试中,这些分类器的架构与本文使用的鉴别器相同,并且是用 CelebA-HQ 数据集进行训练,该数据集保留了原始 CelebA 数据集的 40 个属性。为了测量一个属性的可分离性,生成了 200 000 张 Z∼P(z)的图像,并使用辅助分类网络对它们进行分类。然后,根据分类器的置信度对样本进行排序并删除置信度最低的一半,产生 100 000 个标记的潜在空间向量。
对于每个属性,拟合一个线性 SVM 来预测基于潜在空间点的标签--对于传统网络使用 z,对于基于风格的网络使用 w--并通过这个平面对点进行分类。然后计算条件熵 H(Y|X),其中 X 是由 SVM 预测的类,Y 是由预先训练的分类器确定的类别。这告诉我们需要多少额外的信息来确定一个样本的真实类,假设知道它位于超平面的哪一边。H(Y|X)值越低,对应变量因子的潜在空间方向越一致。
表 3 和表 4 显示,W 的可分离性始终比 Z 好,这表明耦合程度较低。可以提高 W 的图像质量和可分离性。这与综合网络本质上倾向于不耦合的输入表示的假设是一致的。有趣的是,在传统的生成器前加入映射网络会导致严重的可分离性损失,但却改善了中间潜在空间 W 中的情况,而且 FID 也得到。这表明,当引入一个不需要遵循训练数据分布的中间潜在空间时,即使是传统的生成器架构也会表现得更好。
5.结论
基于本文的结果和 Chen 等人的平行工作,传统的 GAN 生成器架构在各方面都比基于风格的设计差。在已建立的质量指标方面也是如此。由此进一步认为,本文对高级属性和随机效应的分离以及中间潜在空间的线性的研究将证明是卓有成效的,有助于提高对 GAN 合成的理解和可控性。
同时注意到,本文的平均路径长度指标可以很容易地在训练过程中被用作正则器,也许线性可分性度量的一些变体也可以作为正则器。
鸣谢
本文由南京大学软件学院 2021 级硕士颜昌粤翻译转述。
感谢 Jaakko Lehtinen、David Luebke 和 Tuomas Kynkäänniemi 的深入讨论和评论;Janne Hellsten Tero Kuosmanen 和 Pekka Jänis 提供的计算基础设施和对代码发布的帮助。