开源大模型阵营又添新成员。
原标题:最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型
文章来源:AI前线
内容字数:4343字
阶跃星辰与吉利汽车联合开源全球最大参数量视频生成模型
本文总结了2025年2月18日阶跃星辰和吉利汽车集团联合开源两款Step系列多模态大模型的新闻要点。
开源两款大模型
阶跃星辰和吉利汽车集团联合宣布开源两款Step系列多模态大模型:Step-Video-T2V和Step-Audio。Step-Video-T2V是全球参数量最大、性能最好的开源视频生成模型,拥有300亿参数,可生成高分辨率视频;Step-Audio是行业首款产品级开源语音交互模型,能够生成多种风格的语音。
吉利汽车的战略布局
吉利汽车集团CEO淦家阅表示,吉利致力于成为智能汽车AI科技的引领者和普及者,并已搭建了端到端的自研体系和生态联盟。星睿AI大模型已与开源模型深度融合,将提升用户体验。
阶跃星辰的AGI目标
阶跃星辰创始人兼CEO姜大昕博士表示,开源的目的是分享技术成果,并与开发者共同探索多模态模型技术边界,推动产业落地,最终实现AGI(通用人工智能)的目标。
Step-Video-T2V模型详解
Step-Video-T2V模型参数量达300亿,可生成204帧、540P分辨率的高质量视频。其在复杂、人物刻画、视觉想象力等方面表现出色,语义理解和指令遵循能力突出。阶跃星辰还发布了新的基准数据集Step-Video-T2V-Eval用于评测文生视频质量。
Step-Audio模型详解
Step-Audio模型是行业首个产品级开源语音交互模型,能够生成不同情绪、方言、语种和风格的语音,并具备高情商和音色复刻能力。在多个公开测试集中,其性能均高于同类型开源模型。
模型测试与评估
为全面评测开源模型,阶跃星辰还开源了Step-Video-T2V-Eval和StepEval-Audio-360基准测试,分别用于评估视频生成模型和语音交互模型的性能。
体验方式
用户可在跃问APP和网页端体验Step-Video-T2V的视频生成能力。
总而言之,此次开源标志着阶跃星辰在AGI研发道路上迈出了重要一步,也为全球开发者提供了强大的工具,推动了AI技术在视频生成和语音交互领域的进步,并促进与智能汽车领域的深度融合。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。