考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

国内推理模型又添「生力军」。

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

原标题:考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用
文章来源:机器之心
内容字数:6120字

智谱GLM-Zero-Preview:深度推理大模型强势来袭

2024年末,智谱AI发布了其GLM模型家族的新成员——GLM-Zero-Preview,一个专注于深度思考与推理的大模型。该模型在数学、代码和复杂推理问题上表现出色,填补了智谱在推理模型领域的空白。

1. GLM-Zero-Preview 的核心能力

GLM-Zero-Preview基于扩展强化学习技术训练,在多个基准测试中与OpenAI的o1-preview模型不相上下,甚至在部分测试中有所超越。其显著特点在于深度推理能力的提升,能够进行问题拆解、尝试多种解法,并展现出类人的思考决策过程。 它在数学题(例如完整解答2025年考研数学一,得分126分)和代码编写及调试方面都展现了强大的能力,甚至可以编写HTML游戏。

2. 真实世界任务测试

机器之心对GLM-Zero-Preview进行了全方位测试,涵盖了各种类型的推理问题,包括中文逻辑陷阱题、需要专业学科知识的题目以及视觉推理任务。测试结果显示,GLM-Zero-Preview能够轻松应对小数点比大小、干扰项排除、中文歧义等问题,并展现出强大的常识推理和时间感知能力。在数学题方面,它能够解决序列求解、青蛙爬井等问题,甚至能够解答高考数学题。

3. 与竞品模型的对比

机器之心将GLM-Zero-Preview与o1、DeepSeek-R1-Lite、QwQ-32B-Preview等竞品模型进行了对比测试。结果显示,GLM-Zero-Preview的推理过程更加清晰完整,并展现出自我反思、自我怀疑、自我肯定等拟人化的思维模式,在逻辑性和准确性方面具有优势。

4. 智谱AI的AGI战略

GLM-Zero-Preview的发布是智谱AI在AGI道路上迈出的关键一步。智谱AI制定了从L1到L5阶段的AGI路线图,GLM-Zero-Preview代表着其在L4阶段取得的突破,标志着大模型开始具备内省、自我学习和自我改进的能力。智谱AI的产品矩阵涵盖基座模型、多模态模型、视频生成模型、语音模型以及推理模型等,在完整度上处于业界领先地位。

5. 未来展望

智谱AI表示,GLM-Zero-Preview仍有提升空间,未来将通过强化学习技术的持续优化,进一步增强其深度思考能力,并扩展其应用范围。正式版GLM-Zero即将推出,预计其深度思考能力将得到进一步提升,并具备更强的通用性和专精性。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...