音频驱动的生成肖像说话视频框架,保持身份一致性和表现力

AI工具1个月前发布 AI工具集
5 0 0

产品名称:MEMO
产品简介:MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。
详细介绍:

MEMO是什么

MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通存储更长期的信息增强身份一致性和平滑性,情感感知模块用多模态注意力机制提升音频与视频的交互,根据音频中的情感来细化面部表情。MEMO在多种图像和音频类型的说话视频中,展现出比现有最先进方法更优秀的整体质量、音频-唇形同步、身份一致性和表情-情感对齐。

音频驱动的生成肖像说话视频框架,保持身份一致性和表现力

MEMO的主要功能

  • 音频驱动的肖像动画:MEMO根据输入的音频和参考图像生成同步的、具有身份一致性的说话视频。
  • 多样化内容生成:支持多种图像风格(如肖像、雕塑、数字艺术)和音频类型(如演讲、唱歌、说唱)的说话视频生成。
  • 多语言支持:能处理包括英语、普通话、西班牙语、日语、韩语和粤语在内的多种语言的音频输入。
  • 表情丰富的视频生成:根据音频的情感内容生成具有相应表情的说话视频。
  • 长视频生成能力:能生成长时间、少误差累积的说话视频。

MEMO的技术原理

  • 记忆引导的时间模块
    • 记忆状态:开发记忆状态存储来自更长过去上下文的信息,指导时间建模。
    • 线性注意力:基于线性注意力机制使用长期信息,提高面部的连贯性,减少误差累积。
  • 情感感知音频模块
    • 多模态注意力:同时处理视频和音频输入,增强两者之间的交互。
    • 音频情感检测:动态检测音频中的情感线索,将情感信息整合到视频生成过程中,细化面部表情。
  • 端到端框架
    • 参考网络(Reference Net):提供身份信息,用在空间和时间建模。
    • 扩散网络(Diffusion Net):核心创新所在,包含记忆引导的时间模块和情感感知音频模块。
  • 数据处理流程:包括场景转换检测、人脸检测、图像质量评估、音频-唇形同步检测等步骤,确保数据质量。
  • 训练策略:分为两个阶段:面部领域适应和情感解耦的鲁棒训练,使用修正流量损失进行训练。

MEMO的项目地址

MEMO的应用场景

  • 虚拟助手和机器人:生成虚拟助手或机器人的逼真视频,在与用户交流时更加自然和亲切。
  • 娱乐和社交媒体:在娱乐行业,创建虚拟偶像、游戏角色或社交媒体影响者的动态视频内容。
  • 教育和培训:生成教育视频,其中教师或培训师的形象根据教学内容动态变化,提高学习体验的互动性和吸引力。
  • 新闻和媒体:在新闻播报中,生成主播的视频,特别是在需要多语言播报时,快速生成对应语言的主播视频。
  • 广告和营销:创建定制化的广告视频,产品代言人根据不同的市场和受众群体进行个性化调整。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止