MOVA

MOVA – 创智学院联合模思智能开源的端到端音视频模型

MOVA，全称MOSS Video and Audio，是由上海创智学院OpenMOSS团队携手模思智能（MOSI）共同问世的中国首款高性能开源音视频端到端生成模型。这款模型打破了传统视频“无声”的桎梏，运用独特的异构双塔架构与双向桥接模块，实现了原生跨模态的交互能力。MOVA拥有高达320亿的参数量（采用MoE架构，推理时激活180亿），能够同步生成长达8秒、分辨率高达720p的视频内容，并配备与之匹配的音频。其在电影级口型同步和环境音效契合度方面展现出卓越的性能。

MOVA的独特之处

一体化音视频创造：该模型能够一次性输出同步的视频画面与音频，彻底告别“哑巴视频”的尴尬局面。
多模态驱动生成：支持图像加文字或纯文本两种输入方式，为内容生成提供了极大的灵活性。
精妙的口型匹配：模型能够精准捕捉人物说话时的口型与语音同步，支持中英文多角色对话。
智慧的环境音效：能够根据画面场景自动生成与之匹配的背景音乐、动作音效和环境氛围音。
动态文字渲染：可在视频画面内的指定区域生成清晰易读的动态文字内容。
高清画质输出：最高可生成720p分辨率、8秒时长的视听片段。

MOVA背后的技术精髓

异构双塔架构：模型整合了140亿参数的视频扩散模型与13亿参数的音频扩散模型，分别处理视觉和听觉信息。通过双向桥接模块，实现了两层隐藏状态的深度交叉注意力融合，使得画面生成的全过程都能感知声音的节奏。
跨模态时间同步：针对视频与音频采样密度巨大的差异，Aligned ROPE机制运用精确的缩放比例映射，将两种模态的Token统一到同一物理时间坐标系，从根本上解决了音画不同步的难题。
渐进式训练策略：模型采用分阶段、由粗到细的训练模式。初期利用360p的低分辨率，使随机初始化的桥接模块快速掌握音视频对齐，逐步增强对齐的稳定性，最终扩展至720p高分辨率进行画质的精细打磨。
双重CFG推理：考虑到音视频联合生成中存在文本指令和模态桥接两个控制源，该模型支持对两者的引导权重进行调整。在一般场景下侧重画面质量，而在对话场景下则着重提升口型精度。