才过了一个月,数学能力就提升了 10%
原标题:1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首
文章来源:机器之心
内容字数:4327字
谷歌Gemini 2.0 Flash Thinking升级:再次登顶,推理能力显著提升
近日,谷歌发布了Gemini 2.0 Flash Thinking推理模型的加强版,并再次登顶Chatbot Arena排行榜。此次升级主要体现在上下文窗口的扩展和模型可靠性的提升上,谷歌AI掌门人Jeff Dean亲自发信庆祝这一成果。
1. 100万token上下文窗口和显著的性能提升
Gemini 2.0 Flash Thinking基于Gemini 2.0 Flash,通过引入“思维”机制增强推理能力。其最大亮点在于能够处理高达100万token的长上下文,允许对长篇文本进行深入分析。此次升级不仅提升了上下文理解能力,还在AIME2024(数学能力测试)、GPQA Diamond(科学能力测试)和MMMU(多模态推理能力)测试中取得了显著进步,数学成绩更是提升了54%。
2. 强大的推理能力和自我纠错机制
Gemini 2.0 Flash Thinking能够在多轮对话和推理中自我纠错,并清晰地展示其思考过程。 Jeff Dean展示的demo中,模型能够解答物理问题并解释推理步骤。 最新模型甚至比预期运行速度更快,有效避免了长上下文模型常见的“变傻”问题,能够保持对话连贯性,灵活运用先前信息完成当前任务。
3. 全面的多模态能力和Project Mariner的贡献
Gemini 2.0展现了强大的多模态能力,能够根据语音指令实时改变界面元素的布局,甚至理解并执行颜色混合等复杂操作。这得益于Project Mariner项目,该项目旨在探索人机交互方式,并赋予AI理解和操作网页浏览器的能力,类似于Claude的“computer use”功能。
4. 谷歌的“全面均衡”开发理念和未来展望
谷歌的开发理念注重模型的全面均衡发展,避免在某些领域表现突出而在其他领域表现欠佳。 Jeff Dean表示,谷歌会持续收集用户反馈,并利用更多数据提升模型在各个方面的能力。 未来,谷歌将继续探索3D数据等更多模态,力求打造一个真正强大的通用模型。
5. Google AI Studio平台及未来规划
谷歌将Gemini系列所有模型整合在“Google AI Studio”平台,提供API密钥、提示词创建、实时对话等功能。 虽然目前平台功能较为分散,但Jeff Dean表示,在模型正式发布后,谷歌将提供完整的技术报告,并根据用户反馈持续改进。
总而言之,Gemini 2.0 Flash Thinking的升级展现了谷歌在大型语言模型领域的持续进步,其强大的推理能力、长上下文理解能力和多模态能力使其在众多竞争对手中脱颖而出。 未来,谷歌在3D数据和更多模态上的探索,值得我们期待。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台