Blog


解决TensorFlow研发与上线的窘境: TF2模型pb转TF1

June 21, 2021 |  Categories:  代码技巧  

在TF2中训练好的模型pb, 如何快速转换到TF1.15和TF1.13实现生产服务上线? 不用重写代码, 直接通过pb转换就行!...


说话人视频生成(五): 解耦音频与视觉表征

May 7, 2021 |  Categories:  多模态   CV   视频生成  

在说话人视频生成任务中, 提升模型鲁棒性并使其能够直接应用在新的人物形象上是一项挑战. 从数据层面的解决办法是通过大量人物形象,音频多样化的数据来训练. 有没有从模型角度直接去解决这个问题的方法呢? 本文将介绍的这篇文章就是显式地将说话人身份信息和说话内容进行解耦, 分离只含说话人面貌特征的部分和只含音频内容信息的特征, 这样经过训练的网络就可以很好地迁移应用到未见过的人物形象上了....


说话人视频生成( 四 ): 条件循环对抗网络

May 6, 2021 |  Categories:  多模态   图像生成   视频生成  

在说话人视频生成的工作上, 一个很倍受关注的点是如何保证生成视频帧时间上的连续性和一致性, 也即人物身份特征的不变性和时间上的唇形连续性。 前人通过音频驱动单张照片输出视频的端到端模型大体上可以分为两类: 1) 独立帧生成(frame-to-frame) 2)顺序生成。 基于frame-to-frame方法的探索我们之前介绍过 “Lip movements generation at a glance", 而从顺序生成的角度,就是本文要介绍的这篇 IJCAI 2019 文章...


说话人视频生成( 三 ): 扫视关联帧唇部动作生成

May 6, 2021 |  Categories:  多模态   CV   视频生成  

之前我们介绍了很多两(多)阶段说话人视频生成的工作, 比如 Speech2Vid, 合成奥巴马等, 它们或者在模型中借助了人脸关键点信息或是在前后处理中引入用了3D标准人脸来做嘴唇(脸部) 的姿态矫正. 对于自然场景下的说话人合成, 即人脸姿态多种多样, 有没有端到端的方法呢? 本文介绍的这篇ECCV2018发表的文章, 它首次将说话人视频生成做到端到端多帧同时生成且考虑时序连续一致性....


说话人视频生成(二): 合成奥巴马

April 27, 2021 |  Categories:  多模态   CV   视频生成  

谈到说话人视频生成, 几乎每篇相关文章都会提到“合成奥巴马”这篇文章, 它算是首次尝试从音频直接推理视频。仅通过音频来生成视频实际上是将1维数据转换为3维甚至更高维的图像流数据, 本身就是一项很大的挑战。就让我们来看看这篇2017年发表在SIGGRAPH的文章带给我们的惊喜。...


说话人视频生成(一):Speech2Vid

April 26, 2021 |  Categories:  多模态   CV   视频生成  

本文将简单介绍这篇发表在BMVC2017上的Speech2Vid模型的相关论文。 这个方法算是早期通过音频直接生成说话人视频生成的代表, 它通过静态图片来提供说话人形象信息, 虽然说会有不自然、缺少牙齿信息等问题, 但也算是做出了唇形匹配音频内容这样一个效果, 算是给后续工作提供了思路, 让我们来看看它的思路。...


SyncNet:视频音唇同步检测及打分

April 14, 2021 |  Categories:  多模态   CV  

给一段talking head视频我们能否通过模型判断说话人声音是否同步? 如果不同步, 通过模型检测提前/延迟时间可行吗? 更进一步, 它能否用在数字人talking head生成上面? 就让我们来看看这"多才多艺"的syncnet吧...


视频合成: video-to-video

April 12, 2021 |  Categories:  图像生成   CV  

在深度学习视频合成, 数字人仿真方向, video-to-video方法绝对是可以有一席之地的, 笔者在人脸合成相关工作中也有用到v2v技术, 这里就将详细探讨一下它带给我们的新方法....


Perceptual Loss: 图像风格迁移和超清化

April 12, 2021 |  Categories:  图像生成  

2016年的perceptual loss在图像生成领域有很广泛的影响, 应用在多个相关任务中. 近期笔者在研究多模态人脸合成时重温了这篇文章,又有新的感触, 分享于此...


图像转换(二): pix2pixHD

April 11, 2021 |  Categories:  图像生成   CV  

本文介绍图像转换pix2pix的进阶版pix2pixHD...


图像转换(一): pix2pix

April 10, 2021 |  Categories:  图像生成   CV  

图像生成的经典文章pix2pix分析解读...


Python Multiprocessing库多进程 non-picklable 问题

March 6, 2021 |  Categories:  python  

Python中使用Multiprocessing库处理多进程问题, 当被调函数为non-picklable时的超简单解决办法...


多模态情感分析简介

March 5, 2021 |  Categories:  情感分析   多模态  

什么是情感分析?什么是多模态? 如何用多模态的方法去解决情感分析问题, 它所面临的问题和挑战又是什么? 笔者在追一科技从事情感分析工作, 将从多角度介绍多模态情感分析的算法解决方案, 作为读者对这个领域入门知识...