字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段
关键字：字节跳动,团队,情感,音频,模型
文章来源：量子位
内容字数：2878字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAIAIGC在视频生成领域展现出非凡的潜力。近期，字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架：接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子（一段有情感的讲话面部视频）作为输入，就能生成一段逼真的、嘴唇同步的讲话面部视频，其中包含高质量的情感表达，连画像也能绘声绘色地进行表演，还支持多个语种。
（以下结果包括真实人类图像和由 AIGC 生成的图像。）
DREAM-Talk 框架的流程如下：‍
首先，将音频映射到表情是一个一对多的问题，使得获得动态和真实的表情变得困难。
其次，生成一系列3D脸部表情参数涉及许多问题，如连续性和多样性。为了应对这些挑战，团队提出了基于扩散的模型，用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件，团队利用EmoDiff学习随时间去噪3D表情，使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情，情感风格由随机选择的表情片段定义，于输入音频。
从扩散模型获得动态情感表达后，团队观察到扩散网络无意

原文链接：字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段