牛
原标题:马斯克大力出奇迹,Grok3 把 o3 干翻了
文章来源:大数据文摘
内容字数:2723字
马斯克发布xAI最强AI模型Grok-3:性能超越GPT-4,挑战最强
近日,马斯克旗下xAI公司发布了其最新的大语言模型Grok-3及其推理版本,并宣称其为“地球上最聪明的AI”。Grok-3在多个基准测试中取得了领先成绩,引发广泛关注。本文将对Grok-3的主要特性、性能表现以及未来发展进行总结。
1. Grok-3的卓越性能
Grok-3在LMSYS Arena盲测中取得了1402分,打破了历史记录,并在所有类别中排名第一,超越了DeepSeek R1、GPT-4、Gemini 2 Pro和Claude 3.5等竞争对手。其推理能力尤为突出,在AIME’24、GPQA、LCB Oct-Feb以及AIME’25等测试中均表现出碾压优势,甚至超过了o3 mini high、DeepSeek R1和Gemini 2 Flash Thinking等顶尖推理模型。
2. Grok-3的核心功能
与前代模型Grok-2相比,Grok-3的计算量提升了十倍,并具备与GPT-4相同的推理能力(Reasoning)。此外,Grok-3还拥有以下核心功能:
- 推理能力(Reasoning):能够进行深度思考和复杂的逻辑推理。
- 深度搜索(DeepSearch):类似于OpenAI的deep research,能够深入理解用户意图,选择相关事实,并交叉验证不同来源的信息。马斯克将其称为“新一代可以理解宇宙的搜索引擎”。
- Big Brain选项:允许模型花费更多计算资源进行更深入的思考,以解决更复杂的难题。在创意编程方面表现出色,例如能够生成可运行的结合《方块》和《宝石迷阵》的游戏代码。
3. Grok-3的易用性和未来规划
目前,X.com Premium+会员可以直接体验Grok-3,网页版和应用版功能将在未来一周内完善,API将在几周内推出。此外,xAI还将发布SuperGrok专属APP,提供优先访问权限、DeepSearch和Think功能以及更高的图像生成限制。
xAI计划在几个月后开源Grok-2,这遵循了其发布新一代模型后开源上一代模型的策略。
4. 专家和用户评价
xAI首席科学家Andrej Karpathy表示,Grok-3的推理能力与OpenAI最强的模型o1-pro相当,甚至略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。一些早期用户也分享了积极的体验,例如使用Grok-3生成P5.JS素描和解决复杂的推理问题。
5. 总结
Grok-3的发布标志着xAI在大型语言模型领域取得了显著进展。其卓越的性能、强大的推理能力以及创新的功能,使其成为当前最具竞争力的AI模型之一。未来,随着API的推出和功能的完善,Grok-3有望在更多领域得到应用,并进一步推动AI技术的发展。
联系作者
文章来源:大数据文摘
作者微信:
作者简介:普及数据思维,传播数据文化