说话人视频生成(二): 合成奥巴马

April 27, 2021 |  Categories:  多模态   CV   视频生成  


谈到说话人视频生成, 几乎每篇相关文章都会提到“合成奥巴马”这篇文章, 它算是首次尝试从音频直接推理视频。

可能有的读者会好奇, 那Speech2Vid那篇不也是几乎同时发表的吗? 其实它们是有区别的, Speech2Vid是通过音频+图片的输入生成任意说话者的视频(参考之前的文章 说话人视频生成(一):Speech2Vid), 而本文章的输入仅为音频, 输出对象也是固定的(如 奥巴马)。 听上去生成单人物视频应该相对更简单些, 但是其实不然。 仅通过音频来生成视频实际上是将1维数据转换为3维甚至更高维的图像流数据, 本身就是一项很大的挑战。就让我们来看看这篇2017年发表在SIGGRAPH的文章带给我们的惊喜。

原工作的项目地址:  https://grail.cs.washington.edu/projects/AudioToObama/

Highlights / Contributions



作者先提出由于嘴部,脸颊,下巴是与音频相关性最大的, 为了降低模型学习难度选择仅生成嘴部的图像,  脸部其它区域则直接借用已有视频.


音频 → 提取音频MFCC特征 → LSTM →嘴部稀疏轮廓  → 合成嘴部和下半脸图像 → 渲染到载体视频



音频特征方面, 对输入单声道16k采样率的/音频提取MFCC特征, 采用了25ms的帧窗口和10ms的滑动步长, 每帧得到维度为13的向量, 再拼接上1维的对数能量均值(log mean energy)来加入音量信息, 将这个14维向量再拼上其一阶差分 (维度14) , 最终每一帧提取到的音频向量维度为28.  由于滑动窗口取10ms, 所以音频部分特征的是按100Hz采样的.

视频特征方面, 首先对视频部分逐帧经行人脸检测和正则化, 用的是 [1] 中的方法.  接着,  在每帧处理后的人脸上检测18个嘴部关键点[2], 这18个关键点构成上下嘴唇内外的轮廓线, 表示为一个36维的向量. 然后作者用PCA将这36维的向量降维到20维, 这么做还有一个效果是可以降低原特征的相关性, 毕竟嘴部的形状本身就是对这些点的一个约束.  由于输入的视频是30fps, 作者通过对这个降维后的20维向量进行时间上的线性插值从而达到和音频一致的100Hz采样频率. 注意这里的插值只用在训练阶段, 最终渲染出的结果视频仍然是30fps的.

有了音频和嘴部关键点特征, 那么模型的目标就明确了: 学习从音频MFCC特征到嘴部关键点的PCA特征之间的时序映射.  这里自然地想到用RNN型网络结构, 主要是考虑到当前时刻的嘴形不仅仅和当前时间段的发音有关, 还依赖于其之前时刻的发音, 比如单词'America'中的'Uhhh'(呃....)音会延续数十毫秒(大于窗口长度25ms), 此时正确的嘴形应当是持续张开而非闭嘴后重新张开, 如果模型知道前某一段时间的嘴已经时张开的, 那么就不用再生成从闭嘴到张嘴过程的图像了. 用LSTM网络正是利用了它的对历史的记忆性.

更进一步, 有时候我们说话时张嘴动作会在发出声音之前, 比如前文提到的'Uhhh' 这个音就会有这种情况存在. 所以不仅需要知道历史, 还要了解将来, 很自然想到用BiLSTM. 然而, 这里需要的只是将来某一小段时间的信息, 作者考虑到BiLSTM在内存和计算上的消耗, 决定通过trick将未来信息融合到单向LSTM中.  这个trick就是在RNN上加入时间延迟time-delay, 得到time-delayed RNN.

下图对比了正常RNN和time-delayed RNN (例如: 延迟2步) 的结构, 图中的时延RNN关键点在于, 当预测第t步输出y(t)时, 模型输入侧已经包含了x(0)到x(t)步的信息, 也就是融合了提前两步的信息 ! 笔者认为这是此篇文章最令人惊喜之处.

在模型实现上用了单层单向的LSTM, 作者也考虑了双层LSTM, 但是实验上并没有得到更好的结果, 后文会做介绍.参数上LSTM隐藏维度取60, 时间延迟取了20步(即20 * 10 = 200 ms).  由于任务本身是28维时序向量到20维时序向量, 所以需要每一时刻的60维隐向量h(t)做简单的线性变化到最终的20维PCA特征y(t). 损失用的是目标和真实向量之间的L2距离. 


前文已经提到文章仅对下半张脸经行合成, 合成的目标是:

对下半张脸的合成作者又将其细分成了多个子部位: 脖子/上衣/嘴部区域, 并供过掩膜Mask来拼接(mask部分由简单的卡阈值thresholding得到) :


每一帧输出的嘴部关键点PCA值是独立经行渲染的, 单帧的pipeline为:

根据20维PCA特征检索到与其形状最匹配的N个目标视频帧做为候选帧 → 通过对N个候选帧经行加权中值(Weight median)得到一个中值纹理(median texture) → 从候选帧中选取牙齿相关的帧并将其中高频的牙齿信息加入到中值纹理中

这一段中文转换起来可能比较晦涩, 原文的描述是:

per mouth PCA shape, select a fixed number of target video frames that best match the given shape; apply weighted median on the candidates to synthesize a median texture; select teeth proxy frames from the target video, and transfer high-frequency teeth details from the proxy into the teeth region of the media texture.


检索候选帧 在目标视频上逐帧用前文中提到的方法检测landmark通过3D姿态估计模型将人脸正面化. 这样得到的3D人脸没有包含完整的下巴区域, 于是用平面做填充同时通过二阶微分将其与原3D人脸连接出做平滑处理.  具体是通过2D的深度图f 做为边界条件, 优化一个新的深度图f*, 满足:

重建前后的图像对比如下图, 其中右图为填充扩展后的结果:

然后应用[1]中的方法通过3D校准的标准人脸, 后回映射到正脸的视角. 候选帧就通过Top N的唇形坐标L2距离得到.


对于N个候选帧我们有它们矫正为正脸后的嘴部图像 及其坐标 (维度: 2 x 18) , 和目标嘴形, 那么每个坐标(u, v) 上的像素加权中值为:

对三个通道R,G,B分别计算, 其中加权权重w由候选嘴形到目标嘴形的指数L2距离计算得到:

作者提到这里的取值很重要, 取太小容易对个别候选帧加过高权重导致抖动, 取太大又会又模糊问题. 实验中是动态取的, 对n个候选帧和总帧数保证以下关系:

这里取0.9, 然后对候选帧数n经行调参.

牙齿细节融合 合成牙齿是一项很挑战的任务, 要求牙齿粒粒分明形态对齐, 与舌头有恰当的遮挡关系. 这里作者借鉴了[3]中融合低频的加权中值纹理和高频的牙齿相关帧的信息. 其思想是加权中值纹理提供了还ok 的牙齿图像, 而牙齿相关帧图像可以提供高频锐利的细节纹理. 这里的牙齿相关帧是人为挑选清晰可见的牙齿正面图像.

那么如何将加权中值纹理和牙齿的细节帧融合呢? 这里作者先将挑选的牙齿细节相关帧图像T规整到[0,1]之间, 然后施加高通滤波:

其中G为高斯核. 接着将中值纹理图I(u,v)与H按照以下关系融合:


得到清晰的嘴部图后再通过[1]中方法及上文中的mask图分块blend得到最终视频帧. 其实在这个过程中, 还用了颌骨矫正(jaw correction) 矫正颌骨与嘴唇的对应性以及用光流技术来保证图像时间上的连续无瑕疵. 此外, 为了使生成视频中奥巴马的头部姿态, 眉毛变化等和语义更自然协调,  作者用了动态规划算法对视频进行了重排(re-timing) , 这里就不介绍细节了, 放以下效果图.

Experiment / Analysis

终于到了实验部分, 其实这篇文章的模型部分就只有LSTM由音频特征预测嘴部特征点, 其它的繁杂的图像处理都想当于预处理/后处理.

首先说下数据, 为什么是奥巴马? 当然有其美国前总统的身份, 作者还列出了一些其它原因:

其次LSTM结构和时间延迟上, 作者实验了不同的组合在validation下的损失(L2 loss):

在嘴部图像合成方面, 作者对比了加权中值方法和其它方法:

最后生成效果如何呢, 作者对比了原视频和用本文方法生成的视频结果:


最后, 作者还讨论了一些badcase, 比如生成的双下巴以及颜色渲染问题:

更多的效果展示可以参考项目地址: https://grail.cs.washington.edu/projects/AudioToObama/


总的来看, 这篇文章的思路还是很明确的, 就是要通过音频学习到嘴部轮廓的关键点的时序映射, 再由每一帧得到的嘴部轮廓坐标去目标视频中检索嘴相似的视频帧, 通过图像算法结合这些检索到的视频帧中的嘴部有效地利用起来输入一个自然的视频.  复杂的是, 由于主体模型并没有任何图像方面的处理, 对图像的处理完全压在了后处理上, 比如姿态对齐, 嘴部渲染等等. 因此, 这篇文章并不是端到端的方法, 读者可能也感受到了其复杂. 但是做为talking head synthesis这个方向很重要的工作, 我们学习其思想和图像处理技巧也是很有帮助的.

接下来笔者还会持续更新分享其它talking head视频合成的工作, 感兴趣的读者可以持续关注噢.


[1] Supasorn Suwajanakorn, Ira Kemelmacher-Shlizerman, and Steven M Seitz. 2014. Total moving face reconstruction. In European Conference on Computer Vision. Springer, 796–812

[2] Xuehan Xiong and Fernando De la Torre. 2013. Supervised descent method and its applications to face alignment. In Proceedings ofthe IEEE conference on computer vision and pattern recognition. 532–539

[3] Aude Oliva, Antonio Torralba, and Philippe G. Schyns. 2006. Hybrid Images. ACMTrans. Graph. 25, 3 (July 2006), 527–532. DOI:https://doi.org/10.1145/1141911.1141919

(原创文章,未经允许禁止转载,  julianlu@wezhuiyi.com)

