推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

AIGC动态2年前 (2024)发布机器之心

能推理解答高难度数学题，但还是看不懂验证码。

原标题：推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview
文章来源：机器之心
内容字数：3872字

谷歌Gemini 2.0 Flash Thinking：推理能力超群，但并非完美

1. **强劲的推理能力及速度：** 谷歌最新发布的Gemini 2.0 Flash Thinking大模型在推理能力方面表现出色，尤其在数学和编程领域速度惊人。它在Chatbot Arena排行榜上夺冠，并在各项评测中名列前茅，速度是同类模型o1-mini的两倍。例如，它能在14秒内解决goto数学题，比其他模型快5倍；高效解答数学期望问题，并给出详细的推理过程；轻松解决复杂的数论问题，甚至能理解并解答三赌徒问题，这是其他模型未能解决的难题。

2. **展现推理过程：** 与其他模型不同，Gemini 2.0 Flash Thinking能够清晰地展现其推理过程，这增强了其透明度和可信度。Jeff Dean在X平台上展示了模型解答物理问题并解释推理过程的demo，时长超过1分钟。这种透明性对于理解模型的决策过程至关重要。

3. **多模态能力：** 该模型不仅支持文本输入，还支持图片和音频等模态的数据，能够识别视觉内容并进行相应的推理，例如解决手写数学问题。

4. **编程及古题解答能力：** 测试表明，Gemini 2.0 Flash Thinking能够编写井字棋小游戏代码，并正确解答《孙子算经》中的古代数学题，展现了其强大的编程和知识库检索能力。在解答过程中，它还会进行知识扩展说明。

5. **仍存在不足：** 尽管Gemini 2.0 Flash Thinking表现优异，但它并非完美无缺。它在简单的计数问题上（例如数出“strawberry”中字母“r”的个数）和一些基本的数字比较问题（例如比较9.9和9.11的大小）上会出错。此外，它目前还无法识别中文验证码。

6. **免费开放使用：** 目前，Gemini 2.0 Flash Thinking实验版已开放免费使用，用户可以访问指定链接进行体验。

7. **与其他模型的竞争：** Gemini 2.0 Flash Thinking的出现，加剧了与ChatGPT、Claude等其他机器人的竞争，为用户提供了更多选择。

8. **总结：** Gemini 2.0 Flash Thinking展现了强大的推理能力和速度，并具备展示推理过程的优势，同时支持多模态输入。尽管它还存在一些不足，但其表现已足够令人印象深刻，未来发展潜力巨大。