Gemini 3.5 Flash

Gemini 3.5 Flash – Google 推出的新一代 A 大模型

Gemini 3.5 Flash：速度与智能的革新者

Google 隆重推出了新一代人工智能巨擘——Gemini 3.5 Flash，它以卓越的智能与强大的行动力为核心，重新定义了 AI 大模型的边界。这款模型在多项关键性能指标上表现出色，其在 Terminal-Bench 2.1 编码基准测试中斩获 76.2% 的高分，在 GDPval-AA 代理任务中达到 1656 Elo 的惊人成绩，并在 MCP Atlas 评测中获得 83.6% 的优异表现。所有这些成就均超越了其前代 Gemini 3.1 Pro，更令人瞩目的是，它的输出速度实现了前沿模型 4 倍的飞跃，而成本却锐减一半。

Gemini 3.5 Flash 的核心能力

Gemini 3.5 Flash 凭借其前沿的智能与强大的行动力，为用户带来了前所未有的 AI 体验。它不仅在各项基准测试中超越了 Gemini 3.1 Pro，更在速度上实现了质的飞跃，输出速度可达前沿模型的 4 倍，同时成本控制在 Gemini 3.1 Pro 的一半以内。更令人兴奋的是，它原生支持高达 100 万 Token 的多模态上下文理解能力，并已在全球范围内通过 Gemini App 和 Search AI Mode 正式上线。

Gemini 3.5 Flash 的主要亮点

闪电般的响应速度：Gemini 3.5 Flash 的输出速度高达每秒 289 个 token，在经过 Antigravity 内部联合优化后，速度提升可达 12 倍之巨，这极大地缩短了 Agent 在多轮交互中的延迟，使得流畅的对话和即时响应成为可能。
卓越的编码与 Agent 表现：在 Terminal-Bench 2.1（76.2%）、SWE-Bench Pro（55.1%）、MCP Atlas（83.6%）、Toolathlon（56.5%）等一系列权威基准测试中，Gemini 3.5 Flash 全面超越了 Gemini 3.1 Pro，展现出其在编码和代理任务上的顶尖实力。
海量上下文的深度洞察：模型原生支持惊人的 100 万 Token 输入窗口，在 CharXiv Reasoning 和 MMMU-Pro 测试中分别获得 84.2% 和 83.6% 的高分，能够统一处理文本、图像、视频、音频以及 PDF 等多种模态的数据，实现对复杂信息的深度理解。
智能子代理的协同编排：借助 Antigravity 2.0 强大的部署能力，Gemini 3.5 Flash 能够并行部署大量的子代理，官方演示中，93 个子代理在短短 12 小时内，以不足 1000 美元的成本完成了完整的操作系统开发，彰显了其在复杂项目协作上的高效性。
灵活的推理动态调控：用户可以通过 thinking_level 参数（标准/扩展）切换思维深度，根据任务需求选择合适的推理级别。代码生成和工具调用默认采用低档位以优化速度，确保效率与精度的平衡。

Gemini 3.5 Flash 的技术基石

精炼模型架构：在 Gemini 3.5 系列全新架构的基础上，通过先进的蒸馏技术对模型进行精炼和压缩，使其在保持接近 Pro 级模型能力的同时，实现了极低的延迟。
动态推理预算分配：引入 thinking_level 机制，打破了传统固定预算的限制，能够根据任务的复杂程度动态分配计算资源，例如在代码生成和工具调用时默认选择低档位以提升速度。
统一多模态编码：采用创新的统一多模态编码器，将文本、图像、音视频等不同类型的数据映射到同一个语义空间，并对百万级长序列注意力计算进行了优化，实现了真正意义上的多模态融合。
前沿安全防护体系：遵循 Frontier Safety Framework，强化了网络安全和 CBRN（化学、生物、辐射、核）安全防护能力。通过可解释性工具对内部推理过程进行严格检查，有效降低了有害输出和误拒的风险。

如何解锁 Gemini 3.5 Flash 的强大功能

多平台接入选择：您可以选择通过 Gemini App、Google Search AI Mode、Google AI Studio，或是 Antigravity 2.0 桌面应用来体验 Gemini 3.5 Flash 的强大能力。
更新 API 模型标识：如果您是开发者，请将代码中旧版预览标识替换为正式版 gemini-3.5-flash，以充分利用最新模型。
智能配置推理级别：根据您的任务需求，合理设置 thinking_level 参数。代码生成和工具调用建议选择 low，通用任务可选择 medium，而复杂推理任务则推荐 high 档位。
精简采样参数设置：建议移除手动设置的 temperature、top_p、top_k 默认值，让模型采用其内部优化的配置，以获得最佳性能。
留意功能迁移的特殊情况：如果您当前的工作流依赖于 Computer Use 浏览器控制功能，请继续使用 gemini-3-flash-preview，因为 3.5 Flash 版本目前暂不支持此功能。

Gemini 3.5 Flash 的核心竞争优势

无与伦比的速度优势：高达每秒 289 个 token 的输出速度，是其他前沿模型的 4 倍，经 Antigravity 优化后更是提升 12 倍，使得 Agent 的多轮交互几乎感受不到延迟。
显著的成本效益：API 定价极具竞争力，每百万 token 的输入/输出成本分别为 $1.50/$9.00，远低于 Claude Opus 4.7 和 GPT-5.5 等竞品，为企业级应用带来了可观的成本节约。Google 预计，头部 Cloud 客户将 80% 的 frontier 工作负载迁移至 3.5 Flash 后，每年可节省超过 10 亿美元。
Agent 任务的卓越表现：在 MCP Atlas（83.6%）和 Toolathlon（56.5%）等评测中表现突出，支持 93 个子代理并行协作，能够以极低的成本高效完成复杂长周期的代理任务，例如在 12 小时内完成完整操作系统开发。
超乎想象的长上下文处理能力：支持 100 万 Token 的多模态输入，能够一次性消化整本长篇小说、厚达百页的法律合同或冗长的视频内容，对长文档和视频的分析不再是难题。
全方位的生态覆盖：Gemini 3.5 Flash 已深度集成至 Gemini App、Search AI Mode、Antigravity 2.0、AI Studio、Android Studio 等 Google 全系列产品中，覆盖了消费者、开发者和企业用户，实现了跨平台的无缝体验。

Gemini 3.5 Flash 的应用场景

实时 AI 编程助手：凭借其低延迟特性，非常适合集成到 IDE 中，提供即时的代码补全、代码审查和交互式调试功能，Antigravity 2.0 已将其设为默认模型，为开发者带来更高效的编码体验。
企业级自动化解决方案：通过部署并行子代理，能够高效处理复杂的多周工作流程，例如 Xero 平台利用 Gemini 3.5 Flash 自动识别和收集 1099 税表的供应商信息。
金融文档智能审核：Macquarie Bank 采用 Gemini 3.5 Flash 来处理和推理超过 100 页的复杂文档，显著加速了客户入职和合规性审核流程。
多模态发票与 OCR 识别：Ramp 结合 Gemini 3.5 Flash 的多模态理解能力和历史模式推理，实现了复杂发票的智能化识别、分类和处理，提升了财务流程的自动化水平。

阅读原文