霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+
关键字：特征,音频,编码器,模型,视觉
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》。
一种名为Hallo的研究火了，GitHub已揽星1k+。
话不多说，来看更多效果：
不论是说话还是唱歌，都能和各种风格的人像相匹配。从口型到眉毛眼睛动作，各种五官细节都很自然。
单独拎出不同动作强度的比较，动作幅度大也能驾驭：
单独调整嘴唇幅度，表现是这样婶儿的：
有不少网友看过效果后，直呼这是目前最好的开源口型同步视频生成：
这项工作由来自复旦大学、百度、苏黎世联邦理工学院和学的研究人员共同完成。
团队提出了分层的音频驱动视觉合成模块，将人脸划分为嘴唇、表情和姿态三个区域，分别学习它们与音频的对齐关系，再通过自适应加权将这三个注意力模块的输出融合在一起，由此可以更精细地建模音视频同步。
Hallo长啥样？如前文所述，Hallo通过使用参考图像、音频序列以及可选的视觉合成权重，结合基于分层音频驱动视觉合成方法的扩散模型来实现。
整体架构是这样婶儿的：
参考图像经过一个ReferenceNet编码全局视觉特征；人脸编码器提取身份相关的特征；音频编码器将输入语音转

原文链接：霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+