INFP：基于音频驱动的真实感面部表情与头部姿态生成AI框架

INFP是一种音频驱动的头部生成框架，专为双人对话交互而设计，能够在对话音频的引导下自动进行角色的转换，无需手动干预。该框架由两个阶段组成：基于动作的头部模仿阶段和音频引导的动作生成阶段，经过实验和可视化分析，验证了其卓越的性能和有效性。此外，INFP还提出了一个大规模的双人对话数据集DyConv，以促进该研究领域的进一步发展。

INFP是什么

INFP是一种音频驱动的头部生成框架，旨在提升双人对话交互的体验。该系统能够自动识别并转换对话中的角色，省去手动分配角色和角色切换的繁琐过程。INFP由两个主要阶段构成：第一阶段是基于动作的头部模仿，而第二阶段则是音频引导的动作生成。通过实验和可视化结果，INFP显示出其在此领域的优越性和实用性。此外，INFP还推出了大规模双人对话数据集DyConv，以支持相关研究的进步。

INFP的主要功能

自动角色转换：在双人对话中，INFP能够自动识别并切换角色，提升交互的自然性和流畅性，无需用户手动操作。
高效轻量：INFP不仅功能强大，且具备轻量化特性。在Nvidia Tesla A10上，其推理速度超过40 fps，支持实时智能代理交互，适用于代理之间或人与代理的沟通。
交互式头部生成：INFP的两个关键阶段包括基于的头部模仿和音频引导的生成。第一阶段将真实对话视频中的面部交流行为编码为低维潜在空间，第二阶段则将音频输入映射到这些潜在代码，从而实现音频驱动的头部生成。
大规模双人对话数据集DyConv：为推动该领域的研究，INFP推出了DyConv数据集，收录了来自互联网的丰富双人对话样本。

INFP的技术原理

基于的头部模仿阶段：在此阶段，框架通过学习将实际对话视频中的面部交流行为映射到低维潜在空间，从而提取出可用于驱动静态图像动画的潜在代码。
音频引导生成阶段：在此阶段，框架实现了从输入双通道音频到潜在代码的映射，通过去噪处理，为交互场景提供音频驱动的头部生成。
实时互动与风格控制：INFP支持实时互动，用户可以随时打断或回应虚拟形象。此外，INFP还能够提取任意肖像视频的风格向量，实现对生成结果中情绪或态度的全局控制。