HumanEval测试多种语言达到SOTA
原标题:最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k
文章来源:量子位
内容字数:2671字
欧洲版OpenAI的代码模型CodeStral 2501登顶代码竞技场
Mistral AI的代码模型CodeStral 2501在Copilot Arena代码竞技场中取得第一名,与DeepSeek V2.5和Claude 3.5 Sonnet并列。这标志着代码模型领域的一个重大进步,其性能在多个基准测试中都达到了最先进水平(SOTA)。
性能提升与新特性
- 速度提升:CodeStral 2501使用了更高效的架构和分词器,生成速度比前一代快约2倍。
- 上下文窗口扩大:上下文窗口从之前的32k增长到256k,是之前的8倍。
- SOTA性能:在HumanEval等传统测试和Copilot Arena中,CodeStral 2501在多个指标上取得了SOTA成绩,尤其在代码补全(FIM)方面表现出色。
- 多语言支持:支持80多种编程语言,并在Python、C++、JS等常用语言中取得SOTA成绩,甚至实现了C#语言得分过半。不过在Java语言上的表现有所下降。
- FIM性能提升:在FIM(单行精确匹配)任务中,CodeStral 2501的平均成绩以及Python、Java和JS三个单项均比前一代有所进步,并优于OpenAI FIM API 3.5 Turbo等其他模型。
Copilot Arena竞技场
Copilot Arena是由卡内基梅隆大学和UC伯克利的研究人员与LMArena合作推出的开源编程工具,用户可以提交问题,系统随机选择两个模型匿名输出,用户根据输出选择优胜者。CodeStral 2501在超过1.7万场battle中脱颖而出,取得了第一名的成绩。
可用性与定价
CodeStral 2501可以通过Mistral的合作方Continue.dev在VSCode或Jetbrains系列IDE中使用,也可以通过API自行部署。定价为每百万输入/输出token 0.3/0.9美元或欧元。
总结
CodeStral 2501的出现标志着代码模型领域的一次重大飞跃。其显著的性能提升、更大的上下文窗口以及在多个编程语言中的SOTA表现,使其成为目前最强大的代码模型之一。 值得关注的是,虽然在一些特定语言(如Java)上的表现略有下降,但整体而言,CodeStral 2501在代码生成和补全方面展现出了强大的实力。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...