在编程、数学等方面表现格外突出
原标题:杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距
文章来源:量子位
内容字数:3067字
阿里Qwen2.5-Max大模型强势崛起,在Chatbot Arena榜单中排名第七
阿里巴巴最新发布的大语言模型Qwen2.5-Max在全球顶级大模型竞技场Chatbot Arena中表现出色,以总分1332的成绩位列第七,超越了DeepSeek-V3、Claude 3.5 Sonnet和Llama 3.1 405B等模型。 Chatbot Arena平台汇集了190多种模型,通过用户盲测投票的方式评估模型性能,其榜单结果被认为是全球大模型能力最权威的评价之一。
Qwen2.5-Max的突出优势
1. **编程和数学能力超群:** Qwen2.5-Max在编程和数学方面的表现尤为突出,与满血o1和DeepSeek-R1并列第一。尤其值得一提的是,在数学榜单上,它是唯一一个非推理模型,取得如此佳绩,展现了其强大的逻辑推理能力。
2. **代码能力强劲:** 与满血o1进行PK,胜率高达69%。 用户测试中,它能快速生成简洁易懂的代码,例如用JavaScript编写象棋游戏,并利用Artifacts功能直接运行。
3. **复杂提示词处理能力出色:** 在复杂提示词任务中,Qwen2.5-Max与o1-preview并列第二,英文提示词下甚至排名第一。 例如,它能够快速准确地分析并解决一个关于团队工作流程优化的复杂问题,并在不到30秒内给出清晰的结论。
4. **多轮对话和长文本处理能力优秀:** Qwen2.5-Max的多轮对话能力与DeepSeek-R1并列第一,长文本处理能力排名第三,优于o1-preview。
5. **在经典榜单上的优异表现:** 在Arena-Hard、MMLU-Pro等基准测试中,Qwen2.5-Max的表现与GPT-4o和Claude 3.5-Sonnet不相上下甚至更优。在开源基座模型对比中,它也全面超越了DeepSeek-V3和Llama 3.1-405B。
Qwen2.5-Max的实际应用及用户反馈
Qwen2.5-Max已在Qwen Chat平台上线,并提供阿里云百炼API接口供企业用户调用。众多用户实测后对其代码、推理能力给予了高度评价,认为其表现稳定,生成的代码简洁易用,并且在处理复杂问题时速度快且准确。一些用户甚至表示Qwen很快会取代硅谷的普通模型。
总结
Qwen2.5-Max的出现标志着中国AI技术正在快速发展,并逐渐缩小与国际领先水平的差距。其在多个领域的突出表现,特别是代码和数学方面的卓越能力,使其成为一个极具竞争力的大语言模型,值得期待其未来的发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破