
April 14, 2021 |  Categories:  多模态   CV  


相信很多人都遇到过这种情况: 从网络上下载来的视频声音和画面有延迟; 电视剧里有些角色的声音一看就是后期配上去的, 嘴形明显对不上...我们发现这些情况时, 都是通过说话人音频的内容和嘴形来判断的.有研究表明音频相对于视频的提前量在-125ms (音频滞后) 到 +45ms(音频提前)是普通大众无法察觉的[1].

对于明显的嘴形错误我们可以直接判断出, 而对于有些难度的音唇不同步现象的判断, 发生在我们脑海里的一般是这样一个过程: 听几个字的发音→脑补(甚至"嘴补")自己说对应内容时候的嘴部动作→比较缓存在脑海中当时画面上说话人的嘴部形态→得出结论: 匹配/不匹配, 这个流程发生的如此自然迅速而又准确, 像极了....机器?那么问题来了, 机器可以做到这一点吗?

机器不仅可以做到, 而且可能比普通人做得更精确! 而完成这件事情的模型, 就是今天要介绍的SyncNet. 给出一段有人物讲话的视频, 它不仅可以判断出是否存在音唇不同步, 而且可以给出音频相对于视频的具体的整体时间延迟/提前. 当然这一切都是在一定时间粒度下完成的, SyncNet文章中用到25fps的检测帧率, 即可以判断几乎40ms量级的差错. 除了文章中提到的上面的功能外, SyncNet在笔者所从事的数字虚拟人生成方面还有着很重要的应用, 特别是在talking head生成这块既可以提供生成视频的量化评判指标,  也可以作为其它模型的一部分来talking head监督视频生成.

笔者也自己修改过这个模型, 并且在更高清的中文数据集上完成优化, 后续也将将它开源出来.  下面就让我们来看一下这篇2017年由哈佛大学的研究者提出的SyncNet模型精华所在吧!

Highlights / Contributions



在讨论模型前我们先思考一下, 当我们说判断音唇同步时是在指什么? 其实本质上就是在判断音频和唇形在某个共同参数空间下的相似性! Get到这一点那么模型构建的思路也就明晰了.

既然是判断相似度的问题, 那么熟悉深度学习的朋友自然而然的就明白这涉及到下面两个问题:

  1. 如何将音频和视频两个模态的特征转化到同一参数空间上?
  2. 用什么标准(metric)去合理衡量特征的相似性?

 这两个问题有没有似曾相识的感觉? 没错, 就是metric learning, 或者说一个它的代表模型孪生网络 Siamese Network,  SyncNet 核心架构很大程度上就是它!

大家都知到Siamese Network拥有典型的双塔结构, 如下图所示, 其中原始的模型要求Network1和Network2共享参数权重, 但是在一些伪孪生网络中也可不共享。 这样的结构也常常被用在人脸校验中, 比如[2].

基于伪孪生网络的结构, 分别在用两个不同的子模型提取相同长度的图像和音频信息, 通过网络学习就解决了上面我们提到的问题1, 统一模态到共同的特征空间。 对于第2个问题, 我们只需要一个具有相似度度量的metric就行,比如欧氏距离, L1距离等。

以上对于我们提出的两个问题的分析都是基于图像层面, 那么还有一个问题, 怎么将音视频的序列性包含进来? 这一点是必须的, 因为对唇形的判断是一个时间依赖的动态过程, 我们需要在一定时间窗口内比较说话人发出的声音和其嘴唇的变化。 对于时间序列问题, 最直观的解决办法是在loss和音频、视频两个特征提取网络之间加入基于RNN的网络, 对逐帧音视频提取特征后再通过RNN来综合局部时序特征。 另一个方法是在特征提取阶段就加入时序特征, 由于图像、音频输入都是2维的(图像用灰度图, 颜色在这个任务中不重要) , 可以将时间维度的帧拼在通道channel上。 作者就是用的这后一种方法。

通过我们上文中从3个问题的角度对这个任务的分析, 相信读者心中已经有了自己的syncnet模型了吧, 下面我们具体来看看文章的作者是怎么做的。

首先, 先说说预处理和模型输入。视频流方面, 对输入视频进行逐帧做人脸检测预处理(用的是S3FD[3]), 得到脸部灰度图, 并截取嘴部区域, 理论上只取嘴部就足够了, 但是为了方便处理作者截取了下半张脸做为输入. 上图中标记的半脸图像大小为120x120, 但是文章中写的是111x111(开源代码中人脸大小resize到了224x224). 同时, 时间方向上以25fps帧率取了连续的5帧, 等效于200ms时长, 将5帧叠放在单独的通道做为时间轴. 音频方面用到的13维的MFCC特征(关于音频输入和处理将在后续文章中详细讨论), 因此通常对,  以100Hz进行采样. 为了和视频对齐, 音频取20帧, 得到13x20x1的输入. 这样经过预处理的视频和音频输入均为二维N通道的"图片" , 每一个"样本"覆盖200ms 的时间窗口. 正样例就是音视频对齐的输入对, 负样例是音视频错位或者不无关的输入对, 本身是不需要标注的.

其次, 数据方面用的是BBC新闻, 训练用了大约600小时视频数据,  主要希望得益于其人脸的多样性. 开源的相关数据集有LRS2, LRS3等[4].  注意, 如果读者想要自己训练一个syncnet模型的话, 简单的从网上拉一些看似音视频已经对齐的资源是不够的, 有可能仍存在<100 ms的非同步, 所以需要干净的经过检查的数据. 作者的做法是先拿未筛选的数据训练一版模型, 然后通过卡阈值把训练集中一部分false positive (即假对齐)给抛弃掉, 从而达到非人工筛选的目的.

数据增强方面, 音频改变了音量(10%幅度), 视频帧用了常用的图像分类数据增强方法, 如随机crop, 翻转, 改色等.

再次, 模型结构方面学习了VGG-M, 简单来说就是基于卷积和池化分别对视频和音频输入逐步做下采样, 利用网络本身来学习时间通道上的依赖关系, 最终分别得到表征视频和表征音频的长度256的一维特征向量.

最后, 通过对比损失contrastive loss 来度量视频特征向量和音频特征向量的距离, 目标是拉近两者的距离:


当然, 就像上文中提到的, 这个Loss不唯一. 作者也提到尝试过用2分类的方式结合交叉熵来做损失, 或者做多分类来预测音视频之间的相对时移(类似统计直方图那样划分多个格子做为类别), 但是却未能达到模型收敛.

Experiment & Analysis

首先, 我们来看看在未经筛选的数据(可能存在错误)上训练出的模型在音视频特征向量的距离度量上能达到怎样效果, 在验证集上的正样例(genuine) 和负样例(false)的分布如下:

可以看到效果还是不错的, 在得到的模型基本上可以一定程度拉开正/负样例的L2距离.

对于模型的评价, 对于同步/非同步这样的二分类结果, 文章用了人类评价者去判断是否同步, 结果如下表. 看到在只有0.2秒(即上文提到的一个'样本'的时长)输入时能达到准确率0.81, 当提供的片段足够长时(文章中没有统计), 准确率可以到0.99以上. 用人类做音视频是否对齐的评判在一定精度上是ok的, 这个精度大概是0.05 ~ 0.1s.

作者还测试了跨语言的效果, 在韩语日语等上面直观表现都不错. 笔者也在中文上用英文训练好的模型做了测试, 基本上判断都没有问题的.  这个跨语言的通用性一方面是来源于训练数据中可能有少量的非英语数据, 另一方面是由于语言发音音素(phoneme) 本身就具有一定的语言通用性 (对于英文和中文在发音音素上的区别, 笔者会在后续文章中专门讨论). 

训练完成的SyncNet能做的不仅仅是判断音视频是否同步, 它还能做很多其它有意思的事情. 

其中一个是判断音视频错位的具体时间(以40ms精度级别), 这也是笔者认为这个工作最有价值的部分. 注意SyncNet模型训练时只用到了类似对比学习的正负样例, 那它又如何给出音视频错位的距离呢? 直接模型输出这个数值是不可能的, 模型只能输出音/视频特征的距离,  那我们得需要技巧. 这里技巧就是, 如果人为的将音频相对于视频向前/向后分别移动一定时间(即人工造成错位), 然后将这个移动后的视频做为模型输入得到音/视频的距离, 相当于人为地做了一个时间差异的'扫描'. 我们期待的结果是什么呢?

首先, 如果音视频是不同源的(即视频中的音频根本不来自于该视频), 那么不论我们怎么做这个错位的'扫描'得到的距离值应该都是差不多的, 而其数值应该比较大. 另一方面, 如果音视频是同源的, 但是可能有错位, 那么我们会在沿同一方向扫描到某一个时间错位时发现距离数值突然降低了, 继续扫描这个数值又回到了之前比较高的水平, 这个音/视频距离数值的最低点告诉我们三件事情:

  1. 这个音频是可以和视频中说话人的嘴形配对的
  2. 最低点对应的错位的时间就是原始输入中音视频错位的负值 (即我们通过'错位'扫描'把这个原有的问题给修复了).
  3. 这个地点'洼地'的深度告诉我们模型对这一点判断的信心(即置信度)

文章中的实验也说明了以上三点, 如下图. 图中横轴是错位的值, 每一个offset是一个样本的时间距离(即40ms, 因为训练图像帧以25fps取得 ) , 因此转换为时间需要乘上40ms. 纵轴是模型输出音/视频间的L2距离. 图的上方标明了这个测量的置信度(confidence), 数值大小大概是谷的深度. 三张图从左到右分别是: 音/视频同源且对齐的输入; 音/视频同源但非对齐的输入(可以看到大概错位了4 * 40 ms = 160ms); 音/视频非同源的输入(音视频毫无关系) .  这个图非常类似于物理上激光琐频时error signal的获取方式:  即在猜想值附近加抖动, 通过反馈信号判断这个目标值到底在哪里!

其次, 另外一个应用是做说话人检测, 如多个说话人中检测当前音频来源于哪个说话者. 这个区别于音频上的speaker identification / classification (依赖于音色等做判断), SyncNet是通过视觉和音频的匹配度来判断的.

最后, SyncNet还可以用来做'读唇术', 即通过嘴部视频输出文字. 作者基于已训练好的图像部分CNN增加了LSTM对图像帧做序列标注, 标注结果是读出的唇语, 结构如下:

效果上是在OuluVS2 数据集上超越了之前的SOTA, 结果为:

读到这里,  有的读者可能已经想到了其它可能的应用, 如音频转嘴形和嘴形生成音频, 相对应的两篇文章分别是: 

笔者近期也会详细介绍这两篇嘴形和音频互转的文章, 尤其是音频转嘴形, 它是生成数字虚拟人嘴形的一种端到端的途径, 感兴趣的读者可以持续关注.


[1] Bt.1359 : Relative timing of sound and vision for broadcasting. ITU (1998)
[2] Chopra, S., Hadsell, R., LeCun, Y.: Learning a similarity metric discrimi- natively, with application to face verification. In: Proc. CVPR. vol. 1, pp. 539–546. IEEE (2005)
[3] Zhang, Shifeng & Zhu, Xiangyu & Lei, Zhen & Shi, Hailin & Wang, Xiaobo & Li, Stan. (2017). S³FD: Single Shot Scale-invariant Face Detector. 10.1109/ICCV.2017.30.
[4] Triantafyllos Afouras, Joon Son Chung, and Andrew Zisserman. 2018. LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496 (2018).
[5] Prajwal, K & Mukhopadhyay, Rudrabha & Namboodiri, Vinay & Jawahar, C.V.. (2020). A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild. 484-492. 10.1145/3394171.3413532.
[6] Prajwal, K & Mukhopadhyay, Rudrabha & Namboodiri, Vinay & Jawahar, C. (2020). Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis.


