字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

既能说,又能听!字节INFP交互式人像生成技术,向Visual Chat Agent迈进。

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

原标题:字节整新活!照片+音频让蒙娜丽莎秒变播客主理人
文章来源:机器之心
内容字数:3387字

字节跳动提出交互式人像生成技术INFP:实现AI数字人自然流畅的听说交互

本文介绍了字节跳动智能创作数字人团队提出的交互式人像生成技术INFP,该技术能够实时驱动单张肖像照片生成对话视频,实现AI数字人在多轮对话中自然流畅的“听说”行为切换,以及逼真的表情、眼神、口型和姿态变化。

1. INFP技术背景

在大语言模型和AIGC的热潮下,构建“视觉对话智能体”成为研究热点。可实时交互的人像生成技术是实现这一目标的关键环节,它能确保智能体在与用户多轮对话过程中提供自然、逼真的视觉反馈,提升用户交互体验。然而,现有技术大多面向单一方向交互(如说话或倾听),无法直接应用于智能体构建。INFP旨在解决这一问题。

2. INFP技术方案

INFP包含两个阶段:

  1. Motion-Based Head Imitation:该阶段模型从大量对话视频中学习提取对话中的交互和行为(包括非语言和语言动作),并将其映射到隐空间。为了提高解耦性,文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。
  2. Audio-Guided Motion Generation:该阶段模型将对话音频(智能体和对话伙伴)映射到隐空间,生成相应的潜码。它包含一个交互引导模型(从可学习记忆库检索动作特征)和一个条件扩散模型(利用交互式特征生成潜码)。

INFP的优势在于,它仅需输入对话音频,即可实时生成自然的人物行为和反馈,实现说话-倾听状态的无缝切换。

3. INFP实验结果与效果

文章通过与其他SOTA方案的对比实验,证明了INFP的有效性,并展示了其在“单一交互”场景中的优异性能。实验结果涵盖动作多样性、非真人效果、即时交互等多个方面。

4. 安全说明

该工作仅用于学术研究,团队会严格限制模型的对外开放和使用权限,防止未经授权的恶意使用。

5. 团队介绍

字节跳动智能创作数字人团队隶属于字节跳动AI & 多媒体技术团队,致力于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。目前,该团队已通过火山引擎向企业开放技术能力和服务。

INFP技术的出现为构建更自然、更逼真的AI视觉对话智能体提供了新的可能性,推动了人机交互技术的进步。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...