Hallo3

Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

Hallo3是复旦大学与百度公司联合推出的一款基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能够生成极具动态感和真实感的视频。该技术借助于预训练的变换器视频生成模型,成功克服了现有方法在处理非正面视角、动态对象渲染及沉浸式背景生成过程中的挑战。

Hallo3是什么

Hallo3由复旦大学与百度公司共同开发,采用扩散变换器网络技术,专注于肖像图像的动画处理,能够生成高度真实与动态的视频内容。该系统基于经过预训练的变换器视频生成模型,有效解决了当前技术在非正面视角、动态对象渲染和背景生成方面的各种难题。Hallo3运用新的视频骨干网络,设计身份参考网络以确保视频序列中面部特征的一致性,并结合语音音频条件和帧机制,实现由音频驱动的连续视频生成。实验结果表明,Hallo3在生成多角度的逼真肖像方面表现卓越,能够适应复杂的姿势和动态场景,创造平滑且真实的动画效果。

Hallo3

Hallo3的主要功能

  • 多视角动画生成:突破传统方法的限制,能够从多种视角(如正面、侧面、俯视或仰视)生成动画肖像。
  • 动态对象渲染:有效处理肖像周围的动态元素,如人物手持物品的自然,增强视频的真实感。
  • 沉浸式背景生成:创建具有动态效果的背景场景,如篝火或繁忙街道,增强整体的沉浸体验。
  • 身份一致性保持:在视频序列中保持肖像的身份一致性,确保长时间动画中面部特征的准确识别。
  • 语音驱动的动画:通过语音音频驱动面部表情和嘴唇动作,实现高度同步的自然动画效果。

Hallo3的技术原理

  • 预训练的变换器视频生成模型
    • 基础架构:CogVideoX模型作为基础架构,通过3D变分自编码器(VAE)压缩视频数据,将潜在变量与文本嵌入结合,利用专家变换器网络进行处理。
    • 条件机制:引入文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)三种条件机制,通过交叉注意力(cross-attention)和自适应层归一化(adaLN)整合这些信息。
  • 身份参考网络
    • 3D VAE和变换器层:结合因果3D VAE和42层变换器层的身份参考网络,从参考图像中提取身份特征,嵌入去噪潜在代码中,利用自注意力机制增强模型对身份信息的表示和长期保持。
    • 特征融合:将参考网络生成的视觉特征与去噪网络特征融合,确保长时间序列中的面部动画保持一致性和连贯性。
  • 语音音频条件
    • 音频嵌入:利用wav2vec框架提取音频特征,为每帧生成特定的音频嵌入,并通过线性变换层将其转化为适合模型的表示。
    • 交叉注意力机制:在去噪网络中,交叉注意力机制将音频嵌入与潜在编码进行交互,提升生成输出的相关性,确保模型有效捕捉音频信号。
  • 视频外推:通过将生成视频的最后几帧作为后续片段生成的输入,利用3D VAE处理帧,实现时间一致的长视频推理。
  • 训练与推理
    • 训练过程:分为两个阶段,第一阶段专注于生成具有身份一致性的视频;第二阶段则扩展至音频驱动的视频生成,结合音频注意力模块。
    • 推理过程:模型根据参考图像、驱动音频、文本提示和帧进行输入,生成具有身份一致性和嘴唇同步的视频。

Hallo3的项目地址

Hallo3的应用场景

  • 游戏开发:为游戏角色生成动态肖像动画,使其表现更为自然,提升玩家的游戏体验。
  • 电影制作:创造逼真的角色动画,增强电影和动画的视觉表现力及沉浸感。
  • 社交媒体:为用户提供动态头像,使个人资料更加生动有趣,提升社交媒体的个性化体验。
  • 在线教育:生成虚拟讲师的动画,使在线课程更具吸引力,提升学生的学习兴趣和参与度。
  • 虚拟现实与增强现实:在VR和AR应用中创建虚拟角色,提供更为真实的互动体验,增强用户的沉浸感。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止