视频+语音多模态大模型,SOTA 且开源。
阶跃星辰开源两款多模态大模型,性能领跑行业
近日,国内AI创业公司阶跃星辰与吉利汽车集团联合开源了两款多模态大模型:Step-Video-T2V和Step-Audio。这两款模型在性能上均位列开源多模态领域第一,引发业界广泛关注。
1. Step-Video-T2V:全球参数量最大、性能最佳的开源视频生成模型
Step-Video-T2V是全球参数量最大的开源视频生成模型,采用MIT许可协议,支持免费商用。其生成视频质量显著提升了视频生成AI能力的上限,在镜头调度、人物姿态、人物形象和表情等方面表现出色。它能够实现多种镜头方式,并擅长生成复杂的场景,如芭蕾舞、空手道等,生成的画面逼真、生动,细节丰富。
为了提升生成效率,研究人员设计了深度压缩变分自编码器Video-VAE,实现了16×16的空间压缩比,相比传统模型效率提升64倍。此外,模型还使用了3D全注意力机制和基于视频的DPO方法,提高了视频质量,减少了伪影。
阶跃星辰还开源了针对文生视频质量评测的基准数据集Step-Video-T2V-Eval,用于评估模型性能。评测结果显示,Step-Video-T2V在指令遵循、平滑性、物理合理性、美感度等方面全面超越了此前最好的开源模型。
2. Step-Audio:产品级开源语音交互模型,多维度性能领先
Step-Audio是行业内首款产品级开源语音交互模型,能够根据不同场景生成不同情绪、方言、语种、歌声和个性化风格的表达。它在反应速度、语音自然度、情商等方面表现出色,并支持高质量音色复刻和角色扮演。
在多个主流公开测试集上,Step-Audio的性能均超过同类型开源模型,位列第一。尤其在汉语水平考试六级HSK-6评测中表现突出。其技术贡献包括多模态理解生成一体化、高效合成数据链路、精细语音控制、扩展工具调用以及高情商对话与角色扮演等。
3. 阶跃星辰:技术驱动,持续引领多模态大模型发展
阶跃星辰专注于技术驱动的发展思路,持续投入资源迭代基础模型,其产品布局涵盖语音识别、语音生成、视频理解、图像生成等多个领域。 公司已发布11款大模型,多次在国内外权威大模型评测榜单上位列前茅。其AGI路线图清晰,致力于构建Level 2级别的“可预测视频基础模型”,能够预测未来并处理更高级的任务。
阶跃星辰的开源举措,为AI开源社区注入了新的活力,也展现了中国AI企业在多模态大模型领域的领先实力。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台