LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型
LPM 1.0,由Anuttacon(蔡浩宇AI公司)倾力打造,是一款拥有170亿参数的视频角色表演生成模型,其核心亮点在于能够实现实时全双工的音视频对话,为数字人交互开启了全新篇章。
LPM 1.0:赋能数字人实时对话的革新者
LPM 1.0(Large Performance Model)是Anuttacon公司推出的前沿17B参数视频角色表演生成模型,它突破了传统AI在音视频互动上的局限,实现了实时全双工对话。该模型能够将一张静态图像转化为一个栩栩如生的数字人,使其具备说话、倾听、实时反应的能力,甚至能展现出细腻入微的面部表情。更重要的是,LPM 1.0能够保持角色身份在无限时长的视频生成中始终如一,避免了常见的“越生成越失真”的问题。凭借其强大的通用视觉引擎能力,LPM 1.0可广泛应用于AI对话、虚拟直播、游戏NPC等多元化场景。
LPM 1.0的核心能力剖析
- 即时全双工交互:LPM 1.0支持真正意义上的实时对话,无论是说话还是倾听,都能同步进行,并且双方可以随时打断对方,模型也能在生成回应前自然地展现出停顿、眼神转移等细微反应,极大地提升了对话的流畅度和真实感。
- 永不褪色的身份标识:基于输入的图像,LPM 1.0能够确保角色在长达数小时的视频生成过程中,其外貌、牙齿细节、表情纹理以及侧脸轮廓等关键特征保持高度稳定,彻底解决了现有模型在长时间生成中容易出现的身份漂移问题。
- 三模态协同控制:该模型集成了文本、音频和参考图像三种输入模式,通过文本指令控制角色的动作与表情,利用音频驱动口型同步与节奏把握,并通过参考图像来锚定角色的身份特征,实现了多维度、精细化的角色表演控制。
- “零样本”泛化能力:LPM 1.0展现出了惊人的跨风格适应性,无论是写实风格的人物、二次元动漫角色、三维游戏中的虚拟形象,还是非人类生物,模型均能无需针对特定领域进行微调,直接生成高质量的表演。
- 情感化表演的精妙呈现:模型能够捕捉并生成诸如犹豫、思考、呼吸节奏等细微的情感表情,甚至在唱歌场景下,也能精准地将歌词与嘴型同步,实现富有感染力的情感表达。
LPM 1.0的技术基石
- 严苛的数据构建流程:为了打造高质量的多模态数据集,LPM 1.0的研发团队进行了极其严格的数据筛选,仅保留了不到10%的优质数据,有效剔除了剪辑痕迹和美颜滤镜等瑕疵。通过改进的LR-ASD模型,对每一帧的说话、倾听及空闲状态进行了精确标注,并实现了音频的精准分离。同时,构建了包含全局外观、多视角身体以及面部表情等多粒度的身份参考条件,最终形成了一个庞大而精细的多模态数据集。
- Base LPM:强大的17B基础模型:在140亿参数的图像到视频预训练模型基础上,LPM 1.0增加了30亿参数的交错音频交叉注意力块,构建了一个170亿参数的扩散Transformer模型。该模型联合学习了语音驱动的动态生成、倾听反应的模拟、文本控制的实现以及多参考身份的保持,通过训练超过17万亿的多模态token,实现了高质量的角色表演生成。
- Online LPM:实现低延迟实时推理:通过一个包含四个阶段的自回归蒸馏课程,Base LPM被转化为一个高效的因果流式生成器,即Online LPM。该模型采用了Backbone-Refiner架构,前者负责维护时序潜变量轨迹,后者则负责恢复高保真细节,从而实现了低延迟的实时推理和无限长度的身份一致性生成。
- 精巧的系统架构设计:LPM 1.0与A2A音频模型实现了即插即用的兼容性,通过循环处理倾听、说话、空闲这三种状态,能够实时生成相应的视频流,确保了整个系统的流畅运行和高效交互。
LPM 1.0的使用现状
目前,LPM 1.0主要用于学术交流目的,尚未对外开放,暂无模型权重、源代码、在线演示或API等产品形式提供。
LPM 1.0的官方信息渠道
- 项目官方网站:https://large-performance-model.github.io/
- 技术论文发布平台:https://arxiv.org/pdf/2604.07823
LPM 1.0的关键特性与使用门槛
- 定义核心:LPM 1.0是Anuttacon(蔡浩宇AI公司)推出的170亿参数视频角色表演模型,专注于单人全双工音视频对话场景,能够将静态图像转化为具备实时对话、倾听和反应能力的数字人。
- 核心优势概览:支持全双工实时对话(包含打断能力),实现无限时长身份一致性(外貌和表情长期稳定),支持文本、音频、图像三模态控制,具备零样本泛化能力(涵盖写实、动漫、3D、非人生物等多种风格),并能进行细腻的情感表演(微表情、呼吸节奏等)。
- 技术路线亮点:基于严格过滤的多模态数据集训练Base LPM(17B扩散Transformer),并通过四阶段蒸馏优化为Online LPM(因果流式架构),采用Backbone-Refiner设计以实现实时生成。
- 潜在应用领域:对话式AI代理、虚拟直播主持人、互动式游戏NPC、AI教育导师、游戏伴侣等场景的通用视觉引擎。
- 当前可及性:目前不对外提供任何形式的产品或服务。项目页面仅用于学术研究和交流,不包含模型权重、源代码、在线演示或API。
LPM 1.0的突出优势
- 突破“表演三难”困境:LPM 1.0是业内首个在表现力、实时推理能力和长时身份稳定性这三个关键维度上均实现卓越表现的视频生成模型,成功克服了传统模型只能兼顾其中两项的瓶颈。
- 无缝的全双工实时交互:模型支持真正的实时对话体验,说话与倾听状态能够无缝切换,双方可以同时发言并随时打断,响应延迟极低,同时还能自然地展现出停顿、眼神转移等微反应,显著提升了交互的真实感。
- 超越时长的身份恒定:通过创新的流式架构,LPM 1.0能够确保角色外貌、牙齿细节、表情纹理等特征在数小时长的视频中保持高度一致,有效避免了如Kling-Avatar 2.0或OmniHuman 1.5等模型在生成30秒以上视频时出现的身份漂移问题。
- 逼真的倾听行为模拟:LPM 1.0能够生成逼真的倾听反应,如点头、眉毛的微动以及注视等,弥补了当前许多模型仅关注“说”而忽视“听”的不足。
- 强大的“零样本”泛化能力:模型无需针对特定风格进行微调,即可支持写实人物、2D动漫、3D游戏角色以及非人生物等多种风格,展现出极强的角色适配和生成能力。
- 业界领先的性能表现:在首个交互式角色表演基准LPM-Bench上,LPM 1.0取得了全面领先的成绩。在人工评估中,其720P版本的模型获得了比Kling-Avatar-2高出64.3%的用户偏好率,以及比OmniHuman-1.5高出42.5%的用户偏好率。
LPM 1.0与同类竞品对比分析
| 对比维度 | LPM 1.0 | Kling-Avatar 2.0 | OmniHuman-1.5 |
|---|---|---|---|
| 视频时长限制 | 无时长限制,长时身份保持稳定 | 最长30秒 | 最长30秒 |
| 交互模式 | 全双工实时(支持同步说话/倾听/打断) | 单向说话内容生成 | 单向说话内容生成 |
| 倾听行为支持 | 原生支持(实时反应、点头、眼神追踪) | 不支持 | 不支持 |
| 身份稳定性表现 | 数小时内保持一致性 | 随时间推移可能出现身份漂移 | 随时间推移可能出现身份漂移 |
| 人工评估结果 | 基准标杆 | 64.3%用户更倾向于LPM 1.0 | 42.5%用户更倾向于LPM 1.0 |
LPM 1.0在各领域的应用前景
- 智能对话代理的生动化:为AI助手赋予具象化的视觉形象,使其能够进行面对面的真实互动,广泛应用于客户服务、虚拟助理以及数字人领域。
- 沉浸式游戏体验的打造:创造具备语境理解、倾听反应和情感连贯肢体语言的开放世界NPC,无需额外的动作捕捉即可实现深度互动叙事。
- 不间断的虚拟直播与主持:实现长达数小时的虚拟直播,在亚秒级延迟下保持身份一致性和视觉质量,支持24小时不间断播出。
- 个性化教育与辅导的革新:AI导师将拥有持续的视觉存在感,在长时间的教学过程中保持身份的恒定,并能自然地在热情讲解与专注倾听之间切换。
- 游戏伴侣的互动升级:通过实时上下文评论、情感鼓励和自然表情响应玩家的游戏过程,为单人游戏增添社交互动体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号