Hallo3

Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

Hallo3是复旦大学与百度公司联合推出的一款基于扩散变换器网络（Diffusion Transformer Networks）的肖像图像动画技术，能够生成极具动态感和真实感的视频。该技术借助于预训练的变换器视频生成模型，成功克服了现有方法在处理非正面视角、动态对象渲染及沉浸式背景生成过程中的挑战。

Hallo3是什么

Hallo3由复旦大学与百度公司共同开发，采用扩散变换器网络技术，专注于肖像图像的动画处理，能够生成高度真实与动态的视频内容。该系统基于经过预训练的变换器视频生成模型，有效解决了当前技术在非正面视角、动态对象渲染和背景生成方面的各种难题。Hallo3运用新的视频骨干网络，设计身份参考网络以确保视频序列中面部特征的一致性，并结合语音音频条件和帧机制，实现由音频驱动的连续视频生成。实验结果表明，Hallo3在生成多角度的逼真肖像方面表现卓越，能够适应复杂的姿势和动态场景，创造平滑且真实的动画效果。

Hallo3

Hallo3的主要功能

多视角动画生成：突破传统方法的限制，能够从多种视角（如正面、侧面、俯视或仰视）生成动画肖像。
动态对象渲染：有效处理肖像周围的动态元素，如人物手持物品的自然，增强视频的真实感。
沉浸式背景生成：创建具有动态效果的背景场景，如篝火或繁忙街道，增强整体的沉浸体验。
身份一致性保持：在视频序列中保持肖像的身份一致性，确保长时间动画中面部特征的准确识别。
语音驱动的动画：通过语音音频驱动面部表情和嘴唇动作，实现高度同步的自然动画效果。

Hallo3的技术原理

预训练的变换器视频生成模型：
- 基础架构：CogVideoX模型作为基础架构，通过3D变分自编码器（VAE）压缩视频数据，将潜在变量与文本嵌入结合，利用专家变换器网络进行处理。
- 条件机制：引入文本提示（ctext）、语音音频条件（caudio）和身份外观条件（cid）三种条件机制，通过交叉注意力（cross-attention）和自适应层归一化（adaLN）整合这些信息。
身份参考网络：
- 3D VAE和变换器层：结合因果3D VAE和42层变换器层的身份参考网络，从参考图像中提取身份特征，嵌入去噪潜在代码中，利用自注意力机制增强模型对身份信息的表示和长期保持。
- 特征融合：将参考网络生成的视觉特征与去噪网络特征融合，确保长时间序列中的面部动画保持一致性和连贯性。
语音音频条件：
- 音频嵌入：利用wav2vec框架提取音频特征，为每帧生成特定的音频嵌入，并通过线性变换层将其转化为适合模型的表示。
- 交叉注意力机制：在去噪网络中，交叉注意力机制将音频嵌入与潜在编码进行交互，提升生成输出的相关性，确保模型有效捕捉音频信号。
视频外推：通过将生成视频的最后几帧作为后续片段生成的输入，利用3D VAE处理帧，实现时间一致的长视频推理。
训练与推理：
- 训练过程：分为两个阶段，第一阶段专注于生成具有身份一致性的视频；第二阶段则扩展至音频驱动的视频生成，结合音频注意力模块。
- 推理过程：模型根据参考图像、驱动音频、文本提示和帧进行输入，生成具有身份一致性和嘴唇同步的视频。