在“最难AI榜”,拿下中国第一、全球第五。
原标题:登上“最不可能作弊”的榜单,阶跃星辰Step-2位列中国大模型第一|甲子光年
文章来源:甲子光年
内容字数:4490字
阶跃星辰在LiveBench榜单的惊人表现
2023年11月19日,国际权威榜单LiveBench公布了最新的语言大模型测评结果。中国公司阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411(简称Step-2)荣获全球第五,成为唯一进入前十的中国公司,超越多个国际主流模型,展现出强大的技术实力。
1. LiveBench榜单的权威性
LiveBench是由图灵奖得主杨立昆等机构推出的新兴大模型基准测试,以其严格的评测标准和特殊的评测机制著称。它旨在消除“刷榜作弊”的可能性,确保评测结果的客观性。评估范围广泛,至今已评估多个闭源和开源模型。
2. Step-2的卓越性能
阶跃星辰的Step-2在IF Average(指令跟随)方面表现尤为突出,超越所有国内外语言大模型。这表明Step-2在语言生成上具备出色的理解和执行能力。相比于千亿参数的Step-1,Step-2在综合能力上提升了近50%,在编程、逻辑推理和知识理解等方面均有显著进步。
3. MoE架构的创新
Step-2采用了万亿参数和MoE架构,能够更有效地处理复杂问题。通过专家共享参数和异构化设计,Step-2确保每个“专家模型”都得到充分训练,使得其在每次推理时激活的参数量超过多数稠密模型。这一创新设计是Step-2强大能力的根本原因。
4. 全面的战略布局
阶跃星辰不仅专注于大语言模型,同时也积极布局多模态模型,形成了完整的模型矩阵。其快速的模型迭代速度使其在国内外同行中脱颖而出。2024年,阶跃星辰已经发布了多个大模型,涵盖从千亿参数到万亿参数的全面能力。
总结
阶跃星辰的成功不仅展示了其在大模型研发领域的技术实力,也为实现AGI(通用人工智能)奠定了基础。随着AI技术的不断发展,阶跃星辰及其他国产大模型有望在未来创造更多的惊喜。
联系作者
文章来源:甲子光年
作者微信:
作者简介:甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。