ChatAnyone

AI工具1年前 (2025)更新 AI工具集

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

ChatAnyone

ChatAnyone是一款由阿里巴巴通义实验室开发的实时风格化肖像视频生成框架，能够通过音频输入生成富有表现力的上半身肖像视频。其核心技术包括高效的分层扩散模型和混合控制融合生成模型，确保生成的视频具备高保真度和自然度，同时支持实时互动。这一创新工具广泛适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐及医疗健康等多个领域。

ChatAnyone是什么

ChatAnyone是阿里巴巴通义实验室推出的一种先进的实时风格化肖像视频生成框架。通过音频信号的输入，ChatAnyone能够生成表现丰富的肖像视频，展现上半身的动态动作。其高效的分层扩散模型与混合控制融合生成模型的结合，使得生成的视频不仅高保真且自然流畅，同时支持实时交互功能，适用于多种应用场景，包括虚拟主播、远程会议、内容创作、教育和客户服务等。值得一提的是，ChatAnyone还支持个性化的风格化控制，用户可以根据需求调整表情风格，实现独特的动画效果。

ChatAnyone的主要功能

音频驱动的肖像视频生成：通过音频输入，生成生动的肖像视频，展现丰富的面部表情和上半身动作，支持多样化的风格调控。
高保真度与自然度：生成的视频不仅具有丰富的表情，还展现自然的上半身动作。
实时交互：能够支持实时互动，适合用于视频和在线会议等应用场景。
个性化风格化控制：根据用户需求灵活调整表情风格，生成个性化的动画内容。

ChatAnyone的技术原理

高效的分层扩散模型：通过输入音频信号，输出面部和身体的控制信号，考虑显式和隐式信号，以实现多样化的面部表情和同步的头部与身体动作。
混合控制融合生成模型：结合显式地标与隐式偏移量，生成真实的面部表情，并注入手部控制信号以增强手部动作的准确性。面部优化模块则进一步提升生成肖像视频的真实感与表现力。
可扩展的实时生成框架：支持从简单的头部动画到复杂的上半身手势生成，能够在高性能的4090 GPU上实时生成最高512×768分辨率、30fps的肖像视频。