阶跃同时开源视频生成+实时语音模型,我愿称之「多模态界的Deepseek」

阶跃同时开源视频生成+实时语音模型,我愿称之「多模态界的Deepseek」

原标题:阶跃同时开源视频生成+实时语音模型,我愿称之「多模态界的Deepseek」
文章来源:夕小瑶科技说
内容字数:6015字

中国开源大模型的崛起:阶跃星辰的惊艳表现

本文总结了关于中国AI初创公司阶跃星辰及其最新开源大模型的报道要点。阶跃星辰在短短两年内发布了11款多模态模型,展现了其惊人的研发速度和技术实力,被誉为“多模态卷王”。其最新发布的两个模型——Step-Video-T2V和Step-Audio,在全球范围内引发关注,被认为是继DeepSeek之后又一个里程碑式的成果。

1. Step-Video-T2V:开源视频生成模型的王者

Step-Video-T2V是一个参数量高达300亿的视频生成模型,超越了此前腾讯混元130亿参数的开源模型,成为新的开源老大。该模型在多个维度上超越了之前的SOTA模型,尤其在、风景、人物等复杂场景的生成上表现出色,其流畅的运镜、精准的细节还原以及对物理规律的理解都令人印象深刻。模型采用MIT开源协议,允许商用和任意编辑,进一步降低了使用门槛。

2. Step-Audio:实时语音对话模型的突破

Step-Audio是一个支持实时语音对话的模型,同样在跃问APP上提供免费不限次的使用。该模型支持多种语言、方言和情绪表达,甚至可以理解和复现绕口令,其在学术测试基准上也全面超越了之前的开源模型。更重要的是,Step-Audio-chat版本可以调用外部工具,如搜索引擎和知识库,这使其更接近实际应用场景,有望成为业内首个产品级的开源语音交互模型。阶跃星辰还同时开源了一个新的语音评估体系StepEval-Audio-360,为更客观地评估语音模型提供了新的标准。

3. 阶跃星辰的快速发展和技术实力

阶跃星辰在短短两年内取得的成就令人瞩目,平均每两个月就发布一款新模型,其模型涵盖了图像、视频、语音等多种模态。其其他模型也在多个权威榜单上取得了领先地位,例如Step-1o-vision在LMSYS Org榜单中获得国内视觉领域大模型第一。这些都证明了阶跃星辰强大的技术实力和创新能力。

4. 中国AI的蓬勃发展

阶跃星辰的成功,以及DeepSeek等其他中国AI企业的崛起,共同展现了中国AI技术的蓬勃发展。这些企业在不同的方向上取得突破,共同推动着AGI(通用人工智能)的发展,也让世界看到了中国在人工智能领域的强大实力。 这也印证了麻省理工科技评论的观点,即除了DeepSeek外,中国还有多家AI初创企业值得关注。

总而言之,阶跃星辰的开源大模型的发布,不仅为开发者提供了强大的工具,也为中国AI在全球舞台上的竞争力注入了新的活力。


联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...