视频生成

人头姿态迁移（）: DVP

May 12, 2021 | Categories: 多模态 CV 视频生成

Empty abstract

说话人视频生成（）： Text-based Editing of Talking-head Video

May 12, 2021 | Categories: 多模态 CV 视频生成

未完成

说话人视频生成(五): 解耦音频与视觉表征

May 7, 2021 | Categories: 多模态 CV 视频生成

在说话人视频生成任务中, 提升模型鲁棒性并使其能够直接应用在新的人物形象上是一项挑战. 从数据层面的解决办法是通过大量人物形象,音频多样化的数据来训练. 有没有从模型角度直接去解决这个问题的方法呢? 本文将介绍的这篇文章就是显式地将说话人身份信息和说话内容进行解耦, 分离只含说话人面貌特征的部分和只含音频内容信息的特征, 这样经过训练的网络就可以很好地迁移应用到未见过的人物形象上了.

在说话人视频生成的工作上，一个很倍受关注的点是如何保证生成视频帧时间上的连续性和一致性，也即人物身份特征的不变性和时间上的唇形连续性。前人通过音频驱动单张照片输出视频的端到端模型大体上可以分为两类： 1）独立帧生成（frame-to-frame） 2）顺序生成。基于frame-to-frame方法的探索我们之前介绍过 “Lip movements generation at a glance"，而从顺序生成的角度，就是本文要介绍的这篇 IJCAI 2019 文章

说话人视频生成( 三 ): 扫视关联帧唇部动作生成

May 6, 2021 | Categories: 多模态 CV 视频生成

之前我们介绍了很多两(多)阶段说话人视频生成的工作, 比如 Speech2Vid, 合成奥巴马等, 它们或者在模型中借助了人脸关键点信息或是在前后处理中引入用了3D标准人脸来做嘴唇(脸部) 的姿态矫正. 对于自然场景下的说话人合成, 即人脸姿态多种多样, 有没有端到端的方法呢? 本文介绍的这篇ECCV2018发表的文章, 它首次将说话人视频生成做到端到端多帧同时生成且考虑时序连续一致性.

说话人视频生成（二）：合成奥巴马

April 27, 2021 | Categories: 多模态 CV 视频生成

谈到说话人视频生成，几乎每篇相关文章都会提到“合成奥巴马”这篇文章，它算是首次尝试从音频直接推理视频。仅通过音频来生成视频实际上是将1维数据转换为3维甚至更高维的图像流数据，本身就是一项很大的挑战。就让我们来看看这篇2017年发表在SIGGRAPH的文章带给我们的惊喜。

说话人视频生成（一）：Speech2Vid

April 26, 2021 | Categories: 多模态 CV 视频生成

本文将简单介绍这篇发表在BMVC2017上的Speech2Vid模型的相关论文。这个方法算是早期通过音频直接生成说话人视频生成的代表，它通过静态图片来提供说话人形象信息，虽然说会有不自然、缺少牙齿信息等问题，但也算是做出了唇形匹配音频内容这样一个效果，算是给后续工作提供了思路，让我们来看看它的思路。