MOVA – 创智学院联合模思智能开源的端到端音视频模型
MOVA,全称MOSS Video and Audio,是由上海创智学院OpenMOSS团队携手模思智能(MOSI)共同问世的中国首款高性能开源音视频端到端生成模型。这款模型打破了传统视频“无声”的桎梏,运用独特的异构双塔架构与双向桥接模块,实现了原生跨模态的交互能力。MOVA拥有高达320亿的参数量(采用MoE架构,推理时激活180亿),能够同步生成长达8秒、分辨率高达720p的视频内容,并配备与之匹配的音频。其在电影级口型同步和环境音效契合度方面展现出卓越的性能。
MOVA的独特之处
- 一体化音视频创造:该模型能够一次性输出同步的视频画面与音频,彻底告别“哑巴视频”的尴尬局面。
- 多模态驱动生成:支持图像加文字或纯文本两种输入方式,为内容生成提供了极大的灵活性。
- 精妙的口型匹配:模型能够精准捕捉人物说话时的口型与语音同步,支持中英文多角色对话。
- 智慧的环境音效:能够根据画面场景自动生成与之匹配的背景音乐、动作音效和环境氛围音。
- 动态文字渲染:可在视频画面内的指定区域生成清晰易读的动态文字内容。
- 高清画质输出:最高可生成720p分辨率、8秒时长的视听片段。
MOVA背后的技术精髓
- 异构双塔架构:模型整合了140亿参数的视频扩散模型与13亿参数的音频扩散模型,分别处理视觉和听觉信息。通过双向桥接模块,实现了两层隐藏状态的深度交叉注意力融合,使得画面生成的全过程都能感知声音的节奏。
- 跨模态时间同步:针对视频与音频采样密度巨大的差异,Aligned ROPE机制运用精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根本上解决了音画不同步的难题。
- 渐进式训练策略:模型采用分阶段、由粗到细的训练模式。初期利用360p的低分辨率,使随机初始化的桥接模块快速掌握音视频对齐,逐步增强对齐的稳定性,最终扩展至720p高分辨率进行画质的精细打磨。
- 双重CFG推理:考虑到音视频联合生成中存在文本指令和模态桥接两个控制源,该模型支持对两者的引导权重进行调整。在一般场景下侧重画面质量,而在对话场景下则着重提升口型精度。
MOVA的获取途径
- 官方网站:https://mosi.cn/models/mova
- GitHub代码库:https://github.com/OpenMOSS/MOVA
- HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova
MOVA的广泛应用前景
- 影视制作领域:能够快速生成分镜预览和配音小样,显著降低前期制作成本,加速创意验证过程。
- 短视频创作:为内容创作者提供带有音效的高质量剧情素材,提升创作效率,丰富内容表现形式。
- 游戏开发行业:可自动生成过场动画和角色对话,实现音画同步的沉浸式体验,缩短开发周期。
- 教育培训行业:能够制作多语言、口型精准的教学视频,支持全球化内容适配,有效提升学习成效。
- 电商营销领域:可以产出带有解说和背景音乐的产品展示视频,加速营销内容的迭代更新,增强用户转化能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号