Empty abstract
未完成
在说话人视频生成任务中, 提升模型鲁棒性并使其能够直接应用在新的人物形象上是一项挑战. 从数据层面的解决办法是通过大量人物形象,音频多样化的数据来训练. 有没有从模型角度直接去解决这个问题的方法呢? 本文将介绍的这篇文章就是显式地将说话人身份信息和说话内容进行解耦, 分离只含说话人面貌特征的部分和只含音频内容信息的特征, 这样经过训练的网络就可以很好地迁移应用到未见过的人物形象上了.
在说话人视频生成的工作上, 一个很倍受关注的点是如何保证生成视频帧时间上的连续性和一致性, 也即人物身份特征的不变性和时间上的唇形连续性。 前人通过音频驱动单张照片输出视频的端到端模型大体上可以分为两类: 1) 独立帧生成(frame-to-frame) 2)顺序生成。 基于frame-to-frame方法的探索我们之前介绍过 “Lip movements generation at a glance", 而从顺序生成的角度,就是本文要介绍的这篇 IJCAI 2019 文章
之前我们介绍了很多两(多)阶段说话人视频生成的工作, 比如 Speech2Vid, 合成奥巴马等, 它们或者在模型中借助了人脸关键点信息或是在前后处理中引入用了3D标准人脸来做嘴唇(脸部) 的姿态矫正. 对于自然场景下的说话人合成, 即人脸姿态多种多样, 有没有端到端的方法呢? 本文介绍的这篇ECCV2018发表的文章, 它首次将说话人视频生成做到端到端多帧同时生成且考虑时序连续一致性.
谈到说话人视频生成, 几乎每篇相关文章都会提到“合成奥巴马”这篇文章, 它算是首次尝试从音频直接推理视频。仅通过音频来生成视频实际上是将1维数据转换为3维甚至更高维的图像流数据, 本身就是一项很大的挑战。就让我们来看看这篇2017年发表在SIGGRAPH的文章带给我们的惊喜。
本文将简单介绍这篇发表在BMVC2017上的Speech2Vid模型的相关论文。 这个方法算是早期通过音频直接生成说话人视频生成的代表, 它通过静态图片来提供说话人形象信息, 虽然说会有不自然、缺少牙齿信息等问题, 但也算是做出了唇形匹配音频内容这样一个效果, 算是给后续工作提供了思路, 让我们来看看它的思路。
给一段talking head视频我们能否通过模型判断说话人声音是否同步? 如果不同步, 通过模型检测提前/延迟时间可行吗? 更进一步, 它能否用在数字人talking head生成上面? 就让我们来看看这"多才多艺"的syncnet吧
什么是情感分析?什么是多模态? 如何用多模态的方法去解决情感分析问题, 它所面临的问题和挑战又是什么? 笔者在追一科技从事情感分析工作, 将从多角度介绍多模态情感分析的算法解决方案, 作为读者对这个领域入门知识