阶跃同时开源视频生成+实时语音模型，我愿称之「多模态界的Deepseek」

AIGC动态1年前 (2025)发布夕小瑶科技说

原标题：阶跃同时开源视频生成+实时语音模型，我愿称之「多模态界的Deepseek」
文章来源：夕小瑶科技说
内容字数：6015字

中国开源大模型的崛起：阶跃星辰的惊艳表现

本文总结了关于中国AI初创公司阶跃星辰及其最新开源大模型的报道要点。阶跃星辰在短短两年内发布了11款多模态模型，展现了其惊人的研发速度和技术实力，被誉为“多模态卷王”。其最新发布的两个模型——Step-Video-T2V和Step-Audio，在全球范围内引发关注，被认为是继DeepSeek之后又一个里程碑式的成果。

1. Step-Video-T2V：开源视频生成模型的王者

Step-Video-T2V是一个参数量高达300亿的视频生成模型，超越了此前腾讯混元130亿参数的开源模型，成为新的开源老大。该模型在多个维度上超越了之前的SOTA模型，尤其在、风景、人物等复杂场景的生成上表现出色，其流畅的运镜、精准的细节还原以及对物理规律的理解都令人印象深刻。模型采用MIT开源协议，允许商用和任意编辑，进一步降低了使用门槛。

2. Step-Audio：实时语音对话模型的突破

Step-Audio是一个支持实时语音对话的模型，同样在跃问APP上提供免费不限次的使用。该模型支持多种语言、方言和情绪表达，甚至可以理解和复现绕口令，其在学术测试基准上也全面超越了之前的开源模型。更重要的是，Step-Audio-chat版本可以调用外部工具，如搜索引擎和知识库，这使其更接近实际应用场景，有望成为业内首个产品级的开源语音交互模型。阶跃星辰还同时开源了一个新的语音评估体系StepEval-Audio-360，为更客观地评估语音模型提供了新的标准。

3. 阶跃星辰的快速发展和技术实力

阶跃星辰在短短两年内取得的成就令人瞩目，平均每两个月就发布一款新模型，其模型涵盖了图像、视频、语音等多种模态。其其他模型也在多个权威榜单上取得了领先地位，例如Step-1o-vision在LMSYS Org榜单中获得国内视觉领域大模型第一。这些都证明了阶跃星辰强大的技术实力和创新能力。

4. 中国AI的蓬勃发展

阶跃星辰的成功，以及DeepSeek等其他中国AI企业的崛起，共同展现了中国AI技术的蓬勃发展。这些企业在不同的方向上取得突破，共同推动着AGI（通用人工智能）的发展，也让世界看到了中国在人工智能领域的强大实力。这也印证了麻省理工科技评论的观点，即除了DeepSeek外，中国还有多家AI初创企业值得关注。

总而言之，阶跃星辰的开源大模型的发布，不仅为开发者提供了强大的工具，也为中国AI在全球舞台上的竞争力注入了新的活力。