接力DeepSeek，阶跃星辰直接开源两款国产多模态大模型

视频+语音多模态大模型，SOTA 且开源。

原标题：接力DeepSeek，阶跃星辰直接开源两款国产多模态大模型
文章来源：机器之心
内容字数：7735字

近日，国内AI创业公司阶跃星辰与吉利汽车集团联合开源了两款多模态大模型：Step-Video-T2V和Step-Audio。这两款模型在性能上均位列开源多模态领域第一，引发业界广泛关注。

Step-Video-T2V是全球参数量最大的开源视频生成模型，采用MIT许可协议，支持免费商用。其生成视频质量显著提升了视频生成AI能力的上限，在镜头调度、人物姿态、人物形象和表情等方面表现出色。它能够实现多种镜头方式，并擅长生成复杂的场景，如芭蕾舞、空手道等，生成的画面逼真、生动，细节丰富。

为了提升生成效率，研究人员设计了深度压缩变分自编码器Video-VAE，实现了16×16的空间压缩比，相比传统模型效率提升64倍。此外，模型还使用了3D全注意力机制和基于视频的DPO方法，提高了视频质量，减少了伪影。

阶跃星辰还开源了针对文生视频质量评测的基准数据集Step-Video-T2V-Eval，用于评估模型性能。评测结果显示，Step-Video-T2V在指令遵循、平滑性、物理合理性、美感度等方面全面超越了此前最好的开源模型。

Step-Audio是行业内首款产品级开源语音交互模型，能够根据不同场景生成不同情绪、方言、语种、歌声和个性化风格的表达。它在反应速度、语音自然度、情商等方面表现出色，并支持高质量音色复刻和角色扮演。

在多个主流公开测试集上，Step-Audio的性能均超过同类型开源模型，位列第一。尤其在汉语水平考试六级HSK-6评测中表现突出。其技术贡献包括多模态理解生成一体化、高效合成数据链路、精细语音控制、扩展工具调用以及高情商对话与角色扮演等。

阶跃星辰专注于技术驱动的发展思路，持续投入资源迭代基础模型，其产品布局涵盖语音识别、语音生成、视频理解、图像生成等多个领域。公司已发布11款大模型，多次在国内外权威大模型评测榜单上位列前茅。其AGI路线图清晰，致力于构建Level 2级别的“可预测视频基础模型”，能够预测未来并处理更高级的任务。

阶跃星辰的开源举措，为AI开源社区注入了新的活力，也展现了中国AI企业在多模态大模型领域的领先实力。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...