图像转换(二): pix2pixHD

April 11, 2021 |  Categories:  图像生成   CV  

Intro


之前总结了图像转换pix2pix[1] 的工作, 简单总结就是“基于cGAN采用UNet做生成器patchGAN做判别器通过重构损失(L1)和对抗损失联合优化低、高频重建精度” 。


pix2pix提出的框架和方法已经包含了通过语义分割图(semantic segmentation maps)生成真实图像的实现, 但是当本文作者尝试直接把pix2pix用于生成更大的图片(2048x1024)时, 发现训练阶段很不稳定且生成图像结果不如人意。 这篇2018年提出的pix2pixHD就是在pix2pix工作的基础上的优化, 让我们来看看它都有哪些值得学习和借鉴的思想。



Highlight / Contribution


  1. 生成更高清的图像, 是第一个可以合成 2048x1024图像的模型
  2. 实现生成图像的可编辑性, 包括object级别的编辑和style编辑


Challenge


  1. 通过GAN来生成高清图像本身是一件困难的事情
  2. 在保证高清晰度的基础上同时保证细节丰富也不容易


Model


首先为了实现高清图像生成, 作者做了以下三方面的改进(GAN的三大元素):

  1. 生成器: coarse-to-fine generator
  2. 判别器: multi-scale discriminator
  3. 优化Loss: feature-matching loss




coarse-to-fine-generator 作者将生成器分成了上图中两部分: global generator network (G1) 和 local enhancer network (G2), 是典型的两步走策略: 先大体上做一个1024x512的生成结果出来, 再把它做大做精细到2048x1024, 有点类似3D建模时候的从低模到高模的过程。 生成器结构借鉴了perceptual loss那篇文章[2],因为它在生成512x512的图片上效果已经得到了验证。

具体来说, G1又细分为三个子网络: a convolutional front-end G1-F, a set of residual blocks G1-R,  and a transposed convolutional back-end G1-B, 相当于是在卷积自编码器中间加入了残差网络。 同时, G2也应用了相对应的结构, 分为G2-F, G2-R 和G2-B。 随后, 在G2中相当于把G1塞到了G2-F和G2-R中间,  并且同时取G2-F和G1-B的输出作为G2-R的输入。 G1、G2用同样的语义分割图作为输入, 只不过G1先将输入下采样2倍后送入模型。在训练时, 先训练小尺度网络G1, 然后再接入G2一起训练。 如果想要更大的输出尺寸可以再继续添加G3, G4……, 每次将前一阶段输出图片长、宽分别放大2倍。


multi-scale discriminators 判别器部分, 考虑到高分辨大尺度的图像本身对判别器来说就是一项挑战, 因为为了有足够的判别能力判别器需要足够大的感受野, 而这就要求网络结构更深和使用更多层的卷积, 增加大量参数和带来潜在overfit风险。 这里借鉴了[3]中用多个判别其的思想, 作者的办法就是分层处理, 用3个相同结构的判别器D1、D2和D3分别去负责不同尺度上的判别任务。 不同尺度的实现是通过对图片直接进行降采样出一个1x, 2x, 4x 的图像金字塔(image pyramid)出来, 这个多尺度处理方式类似SIFT算法的思想。 由于图像的尺寸不同, 等效于每个子判别器的感受野也不同,D3的感受野最大。


优化Loss 既然判别器从多尺度的角度上做了优化, 那么模型loss从这个角度优化也是合情合理。 这里学习了perceptual loss, 即提出feautre matching loss(FM)。 通常cGAN的损失是:

而这里作者额外加上了FM损失, 将每个判别器(D1、D2和D3) 的每一层特征提取层都拿出来, 单独做真伪判断, 这个思想就是, 我不只要结果, 还要过程。 feature matching loss的形式为:

这里(i)代表判别器k的第i个特征提取层。这样这个模型的损失就变成了:


除了用semantic labels, 加入instance map 可以提高效果, 生成器G输入端是用instance boundary map 并上 one-hot map(由semantic label map得到), 判别器输入端是用instance boundary map、semantic label map 和生成图片三者沿着channel堆叠。 


为了实现风格多样化, 在生成器部分额外添加一个Feature Encoder Network (E), 它是一个encoder-decoder的结构, 通过instance-wise avg-pooling来实现计算每个实力的average feature。 因此这里的生成器就有G(s) 变为了G(s, E(x))。 每个实例的语义风格的提取是在整个模型训练之后, 对每个semantic category进行KMeans聚类得到。



Result & Analysis

在结果分析上,  作者对生成图片进行semantic segmentation 预测(PSPNet[4]), 对比真实图片和生成图片的效果来决定生成图片是否足够好, 也用来Human Perceptual Study的人工评判方式。 模型横向对比方面, 作者对比了pix2pix, 和 CRN (cascade refinement network) [5],  Cityscapes数据集上的结果如下:

作者还对比了用不同生成器结构的结果以及但个判别器和多尺度判别器的效果:

以上结果已经超越了前人, 但作者还提出如果用预训练的VGG来计算perceptual loss 的话, 效果还能提高:


应用方面作者展示了多种多样的场景:




References


[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image- to-image translation with conditional adversarial net- works. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[2] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In European Conference on Computer Vision (ECCV), 2016. 2

[3] I. Durugkar, I. Gemp, and S. Mahadevan. Generative multi-adversarial networks. In International Confer- ence on Learning Representations (ICLR), 2016. 4

[4] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In IEEE Conference on Com- puter Vision and Pattern Recognition (CVPR), 2017.

[5] Q. Chen and V. Koltun. Photographic image synthesis with cascaded refinement networks. In IEEE Interna- tional Conference on Computer Vision (ICCV), 2017.




(原创文章,未经允许禁止转载,  julianlu@wezhuiyi.com)



Leave a comment:

Comments:

On April 19, 2022  axiorse wrote:

[url=https://bestadalafil.com/]Cialis[/url] Epcrhr Kamagra 100mg Oral Xgcbju Retroviruses infect many animals including birds cattle mice cats monkeys and apes. <a href="https://bestadalafil.com/">buying cialis online reviews</a> Udtfnh https://bestadalafil.com/ - Cialis nerve pain shooting cialis Xilwho


On Oct. 26, 2022  reerboawl wrote:

Wang SS, Kloth AD, Badura A <a href=http://bestcialis20mg.com/>cialis online</a>


On May 6, 2023  Hypeexaky wrote:

TIP paclitaxel, ifosfamide, and cisplatin <a href=http://cialiss.quest>cialis generic</a> Arrest of follicular development in a patient with 17- hydroxylase deficiency folliculogenesis in association with a lack of estrogen synthesis in the ovaries


On May 22, 2023  Hypeexaky wrote:

Cardarine or pharmacist or more frequently described and i wanted <a href=https://atadalafil.mom>cialis</a>


On July 13, 2023  cdwtxfypsj wrote:

-- <a href="http://www.g8rhnke67t34kx4912lk8w6kme87k431s.org/">acdwtxfypsj</a> [url=http://www.g8rhnke67t34kx4912lk8w6kme87k431s.org/]ucdwtxfypsj[/url] cdwtxfypsj http://www.g8rhnke67t34kx4912lk8w6kme87k431s.org/


On Oct. 31, 2023  lvecvhiom wrote:

-- lvecvhiom http://www.gumh7cy36253r51str7u69nw4r81jr74s.org/ [url=http://www.gumh7cy36253r51str7u69nw4r81jr74s.org/]ulvecvhiom[/url] <a href="http://www.gumh7cy36253r51str7u69nw4r81jr74s.org/">alvecvhiom</a>


On Jan. 24, 2024  ifywpdxdb wrote:

-- [url=http://www.gkc550bh4a5n2p163p5e9m4z736h8xfns.org/]uifywpdxdb[/url] ifywpdxdb http://www.gkc550bh4a5n2p163p5e9m4z736h8xfns.org/ <a href="http://www.gkc550bh4a5n2p163p5e9m4z736h8xfns.org/">aifywpdxdb</a>