说话人视频生成( 四 ): 条件循环对抗网络

在说话人视频生成的工作上, 一个很倍受关注的点是如何保证生成视频帧时间上的连续性和一致性, 也即人物身份特征的不变性和时间上的唇形连续性。 前人通过音频驱动单张照片输出视频的端到端模型大体上可以分为两类: 1) 独立帧生成(frame-to-frame) 2)顺序生成(Sequential) 。 独立帧生成有于缺乏时间依赖关系倾向于产生帧间抖动问题, 而顺序生成则可能在长时间序列上逐渐丢失人物特征信息。 那么如何解决以上问题呢? 基于frame-to-frame方法的探索我们之前介绍过 “Lip movements generation at a glance", 参考之前的博文 关联多帧唇形生成 , 它基于3D CNN显式地建模了音视频时间序列上的差分相关性, 同时生成时间上一致的多个视频帧。 而从顺序生成的角度,就是本文要介绍的这篇 IJCAI 2019 文章, 它将条件依赖及对抗融于循环结构来解决上述问题, 我们一起来讨论下:

Highlights & Contributions



首先, 在视频帧的生成模型结构方面, 作者分析了前人按帧生成和顺序生成两大模型设计思路, 提出自己的Recurrent Frame Generation模型思路, 图示如下:

相比于(a) 按帧生成 中存在的时间非连续导致的抖动问题和(b)顺序生成中长时人物特征丢失问题, 本文提出的(c) 循环依赖生成结构 结合了(a)、(b)两者的优点, 在顺序循环生成的基础上加入对初始人物特征图输入的条件依赖,  使得模型不仅依赖于已经生成的帧, 而且依赖于人物身份图像来保留长时一致性。 既保证了人物身份特征不被丢失, 又确保了帧于帧之间的时间依赖。

有了上述想法, 那么对整个问题的的数学建模也就自然而然可以得出了。从数学上, 将输入的人物图片记为I*, 连续的音频帧记为:







音频输入取MFCC特征, 实验了不同的窗口大小后文章取啦350ms为最终的窗口, 但是并没有提供滑动步长, 特征维度等的细节. 经过音频编码器Audio Encoder对第t帧提取音频特征:

图像输入为从目标视频中随机选取的一帧经行人脸检测, 并将检测到的人脸resize到128x128大小. 同样的, 经过图像编码器Image Encoder对其提取特征:


音频和图像的编码器在这里的作用是将两个不同模态的输入映射到统一特征空间上, 后续将图像特征拼接到每一个音频帧上得到一个混合特征的时间序列. 每一个混合帧结合上一步的混合帧又通过解码器生成对应的输出视频帧图像. 奇怪的是, 文章并没有披露模型具体结构, 只提到编码和解码部分均用了基于CNN的网络.  

目标视频帧方面, 根据每一个音频帧器起止时间选取对应的视频帧的人脸区域, 但是由于有多个视频帧对应同一音频帧, 这里简单取中间的那帧做为t时刻的目标帧I(t).

这就是生成器部分, 这里用到简单的L1重建损失:


生成模块中简单的L1重建损失仅能够在一定程度上保证输出图像身份特征和音唇一致性. 在对抗学习模块通过多个判别器来加强音频和嘴唇的对应以及时间-空间上的质量.

在音唇一致性判别器方面, 仅取嘴部区域做为输入来去除其它脸部变化的影响, 文章提到用到了唇语识别 lip reading model, 但是并没有具体指出具体是什么模型, 笔者猜测很可能是SyncNet, 对于SyncNet可参考之前的文章 SyncNet:视频音唇同步检测及打分 .  它的损失为:

通过最小化上述损失, 生成的视频帧被强行误分, 而真实视频帧则被推向其正确的标签.

在空间-时间判别器方面, 文章用了两个判别器分别作用于生成的单帧图像以及视频, 虽然两者在功能上又重叠, 但作者认为单帧的图像判别器对于提升单张图片质量来说作用更大, 而视频判别器则主要用于保证时间上的连续性.图片判别器的损失为:

而视频判别器作用在一个图片序列上, 用到了3D CNN 但并没有提供模型的具体细节, 来提升时间的连续性:

结合上述视频生成模块和判别模块两部分, 最终模型的整体损失为:

Experiment & Analysis

在实验方面, 文章主要用到TCD-TIMIT, LRW 和 VoxCeleb三个数据集.  先单独训练生成器30个Epoch, 然后加入判别器继续训练15个Epoch.

在效果对比方面, 文章对比了以下几篇:

  1. Lip movements generation at a glance(Chen et al., 2018 [1]), 参考之前的分析文章: 关联多帧唇形生成
  2. Speech2Vid (Chung et al., 2017 [2]), 参考之前的分析文章: 说话人视频生成(一):Speech2Vid
  3. Talking face generation by adversar- ially disentangled audio-visual representation (Zhou et al., 2019 [3])

从上图效果中作者认为本文的效果在视频质量上更高(如 皮肤锐度和皱纹等细节),嘴形上也更加真实. 但是笔者并没有看出太大差别, 最好是可以通过视频来看效果, 但是文章并没有提供任何demo的链接等, 这点很奇怪.

文章还通过人类评判的方式来对比自己的模型与其它模型的评分, 令人惊讶的是人类评分上本文的模型大幅度超越其它模型, 这更让人好奇它生成的视频效果究竟是怎样的, 但是遗憾的是并没有放出的效果.

指标上用了与上述1中同样量化指标: PSNR, SSIM, LMD, LRA,

上表中还包含了本文模型的消融测试结果对比, r, l, I, V 分别代表最终损失函数中的四项.图像上的消融测试效果为: 

在文初提到了本文提出了区别于之前frame-to-frame以及Sequential逐帧生成方式, 这里作者也给出了这三种方式的一个直观对比, 其中对Frame-to-Frame和本文的方法同时也给出了对应相邻帧的光流Optical Flow图. 

可以看到本文提出的方法在optical flow图上更集中在嘴部, 反映出其时间上人物脸部特征一致性更好 .

文章最后作者讨论了用本文中的模型做头部姿态及表情生成任务, 认为本文中的模型基础上再加入上一帧的数出图片做为输入则可以很好地利用其结构来推理连续的动作和表情, 给出了本文方法生成奥巴马的例子(然而并没有视频可看), 第一行为真实, 第二行为生成结果 :


从结果量化指标对比和人类评判来看,  本文提出的模型远超Speech2Vid等之前的模型, 包括可以用来生成完整的头部动作和表情. 但是纵观全文, 笔者并没有看到作者提供模型的具体细节, 文章中给的只是一个框架, 我们只知道用到了卷积网络做音频, 图片和视频的编解码, 仅此而已, 同时也没有作者放出的demo视频等, 所以笔者对这篇文章整体效果保持保守态度. 不过, 从学习思路方面来说, 文章还是提出了增强生成视频一致性和连续性的一个不错的想法框架. 


[1] Lele Chen, Zhiheng Li, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Lip movements genera- tion at a glance. arXiv preprint arXiv:1803.10404, 2018.

[2] Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? British Machine Vision Conference (BMVC), 2017.

[3] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversar- ially disentangled audio-visual representation. In AAAI, 2019.

(原创文章,未经允许禁止转载,  julianlu@wezhuiyi.com)

