突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题

AIGC动态1年前 (2025)发布新智元

原标题：突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题
文章来源：新智元
内容字数：3099字

Grok-3：免费开放的强大AI，引发热议与争议

1. **Grok-3免费开放，引发开发者热议：** xAI公司发布了其强大的AI模型Grok-3，并宣布免费开放给所有人使用，直到服务器崩溃为止。Grok-3拥有DeepSearch和Think两种模式，号称能够快速解决复杂的难题，例如在MIT积分赛中仅用1分02秒就解决了问题，甚至能正确回答“9.11和9.9哪个大”这样的问题（但并非所有情况下都能正确）。

2. **OpenAI质疑Grok-3作弊：** Grok-3的发布也引发了争议。OpenAI的研究人员质疑Grok-3在评估中使用了基于64个样本的多数投票方法来刷分，认为其夸大了模型的实际能力。双方就此展开辩论，xAI否认作弊，并表示使用了与OpenAI相同的方法。

3. **Grok-3实际测试表现：** 实际测试显示，Grok-3在不同模式下表现有所差异。在Think模式下，Grok-3能够快速准确地回答“9.11和9.9哪个大”的问题；而在普通模式下，需要调整提问方式才能得到正确答案。Grok-3在代码生成、上下文理解和遵循指令方面表现出色，能够快速生成游戏、3D模型等，并展现出令人愉悦的性格。

4. **Grok-3的优势与不足：** Grok-3的优点包括强大的代码处理能力、超长的上下文窗口、优秀的指令遵循能力以及友好的用户体验。但同时也存在一些不足，例如在处理某些特定图像生成任务时（例如倒立的人物）会出现错误。此外，其图像生成能力令人惊叹，能够生成照片级真实的图像，但也引发了人们对真假难辨的担忧。

5. **高级语音模式即将推出：** xAI计划为Grok-3推出高级语音模式，该模式将支持联网、自定义语音、语音转录和音频分享等功能，并提供男女两种不同的语音选择。

6. **总结：** Grok-3的出现标志着AI技术的一次显著进步，其强大的功能和免费开放的策略使其备受关注。然而，围绕其性能评估的争议也提醒我们，对AI模型的评估需要更加严谨和客观，避免夸大其能力或误导公众。