GLM-5

AI工具38分钟前更新 AI工具集
0 0 0

GLM-5 – 智谱开源的新一代旗舰AI模型,媲美 Opus 4.5

智谱开源隆重推出其最新一代旗舰级人工智能模型——GLM-5。这款模型在性能和规模上均实现了质的飞跃,参数量从上一代的355B(激活32B)大幅跃升至744B(激活40B),预训练数据量更是达到了惊人的28.5万亿token。值得一提的是,GLM-5正是此前在OpenRouter上备受瞩目的神秘模型“Pony Alpha”。

GLM-5:新一代智能旗舰

GLM-5不仅是智谱开源在AI领域深耕的最新力作,更是其技术实力的一次集中展现。该模型专为应对复杂的系统工程挑战和执行长程Agent任务而设计,其强大的能力得益于多项创新技术的集成。为了优化部署成本,GLM-5集成了DeepSeek Sparse Attention技术,显著降低了计算资源消耗。同时,自研的“Slime”异步强化学习基础设施,极大地提升了训练效率,使得模型能够更快速地迭代和优化。在权威的Artificial Analysis榜单上,GLM-5以其卓越的表现,荣登全球第四、开源模型第一的宝座。

GLM-5的功能性也得到了显著增强,它能够直接生成如.docx、.pdf、.xlsx等格式的Office文档,并与Claude Code等工具链无缝兼容,极大地扩展了其应用边界。此外,GLM-5还积极拥抱国产化算力,支持华为昇腾、摩尔线程、寒武纪等一系列国产芯片的部署,为国内AI生态的发展注入了新的活力。用户可以通过z.ai官网和BigModel.cn平台进行体验,API接口也已同步开放。

GLM-5的核心能力概览

  • 驾驭复杂系统工程:GLM-5能够游刃有余地处理前端开发、后端架构设计等涉及多层级技术环节的复杂任务,贯穿从需求分析到最终代码实现的整个工程交付流程。
  • 赋能长程Agent任务:该模型具备出色的长期规划和资源管理能力,即使在Vending Bench 2这类需要持续一年运营的模拟商业环境中,也能自主做出决策并达成既定目标。
  • 精通文档智能生成:GLM-5可以将输入的文本或原始素材直接转化为.docx、.pdf、.xlsx等专业文档格式,轻松生成PRD(产品需求文档)、财务报告、教学计划等可直接投入使用的专业文档。
  • 实现多工具协同作业:模型能够与Claude Code、OpenClaw等主流开发工具链实现高效协同,从而实现跨应用程序的自动化操作和无缝协作。

GLM-5的创新技术基石

  • 规模化预训练的突破:GLM-5将模型参数量从355B(激活32B)增至744B(激活40B),预训练数据量也从23T扩展至28.5T,通过投入更多的算力资源,进一步夯实了其通用智能基座。
  • “Slime”异步强化学习基础设施:为解决大规模语言模型在强化学习阶段面临的效率瓶颈,智谱开源自主研发了“Slime”异步RL训练框架。该框架支持奖励计算与策略更新的并行化处理,实现了更精细化的后训练迭代,有效缩小了预训练能力与实际应用表现之间的差距。
  • 引入稀疏注意力机制:GLM-5首次集成了DeepSeek Sparse Attention技术,在确保长文本处理效果不受影响的前提下,大幅削减了Agent场景下的Token消耗,并显著降低了部署成本。
  • 深度适配国产算力:模型已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、平头哥、沐曦等国产芯片的底层算子优化和硬件加速,实现了高吞吐量和低延迟的推理性能。

GLM-5的性能亮点解析

  • 卓越的推理能力
    • 在Humanity’s Last Exam测试中,GLM-5得分30.5%,已非常接近Kimi K2.5的31.5%,显著优于GLM-4.7。
    • AIME 2026 I测试中,GLM-5获得了92.7%的优异成绩,与DeepSeek-V3.2旗鼓相当;在HMMT Nov. 2025测试中,以96.9%的得分领先于大多数竞品。
    • 在GPQA-Diamond专家级推理测试中,GLM-5取得了86.0%的成绩,而IMOAnswerBench测试也达到了82.5%。
  • 强大的编程能力
    • 在SWE-bench Verified真实软件工程测试中,GLM-5取得了77.8%的成绩,多语言版本的表现也达到了73.3%,均比GLM-4.7提升了约4个百分点。
    • Terminal-Bench 2.0终端操作基准测试中,GLM-5的得分达到了56.2%,在Claude Code环境下更是提升至61.1%,远超GLM-4.7。
    • CyberGym网络安全测试中,GLM-5的得分高达43.2%,相比GLM-4.7的23.5%,几乎翻倍,充分展现了其在复杂系统攻防方面的强大能力。
  • 高效的Agent与工具调用
    • 在Vending Bench 2一年期商业模拟中,GLM-5以4,432美元的余额位居开源模型榜首,表现非常接近Claude Opus 4.5。
    • BrowseComp网页浏览任务的完成率为62.0%,结合上下文管理策略后可提升至75.9%,超越了Kimi K2.5。
    • 在τ²-Bench多领域工具调用测试中,GLM-5达到了89.7%的准确率,MCP-Atlas公共集得分67.8%,Tool-Decathlon得分38.0%。
  • 综合实力领跑:在Artificial Analysis权威榜单上,GLM-5位列全球第四,并荣获开源模型第一的殊荣。

如何解锁GLM-5的强大潜能

  • 便捷的在线体验:用户可直接访问z.ai官网,选择GLM-5模型,免费体验Chat模式或Agent模式。Agent模式尤为强大,支持多工具协同和文档生成。此外,通过BigModel.cn平台或Z.ai API服务,可以接入GLM-5,其API接口与OpenAI格式兼容。
  • 灵活的本地部署
    • 用户可以从HuggingFace下载BF16/FP8权重,并利用vLLM、SGLang或xLLM等框架进行本地部署,支持8卡并行推理。
    • 对于非NVIDIA环境,可以通过华为昇腾、摩尔线程等国产芯片进行部署,官方已提供针对性的优化方案。
  • 无缝的开发工具集成
    • 在Claude Code、OpenCode、Kilo Code、Roo Code等开发工具中,只需将模型名称设置为“GLM-5”即可轻松调用。
    • 订阅GLM Coding Plan的用户将直接获得GLM-5的启用权限,或者可以通过Z Code可视化环境远程操控多Agent协作。

GLM-5的广阔应用前景

  • 复杂系统工程的端到端交付:GLM-5能够支持大型项目的全流程交付,自主完成需求细化、架构设计、代码编写及部署等一系列复杂任务。
  • 遗留系统的现代化改造:该模型具备深度理解现有代码库的能力,可执行后端架构优化和系统现代化升级。
  • 深度疑难Bug修复:GLM-5能够分析日志,精准定位问题根源,并进行迭代式修复,直至系统恢复稳定运行。
  • 智能体助手,解放生产力:可实现7×24小时不间断执行搜索、信息整理、内容发布等定时任务,成为用户的得力数字助理。
  • 经营决策的智能化优化:在模拟商业环境中,GLM-5能够展现出卓越的长期规划与资源管理能力,为企业制定智能化的经营策略。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...