Gemini 2.5 Computer Use

Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

谷歌 DeepMind 继 Gemini 2.5 之后，又推出了革新性的 Gemini 2.5 Computer Use 模型，它赋予了人工智能前所未有的能力——直接操控浏览器。这项突破性技术允许 AI 像人类一样，精准执行点击、滑动、文字输入等一系列交互动作，将用户与数字世界的互动推向了一个全新的维度。

Gemini 2.5 Computer Use 揭秘

Gemini 2.5 Computer Use 是谷歌 DeepMind 团队打造的一款基于 Gemini 2.5 强大能力的计算机使用模型。它能够让 AI 跃过传统的接口限制，直接与浏览器进行互动，完成诸如点击链接、滚动页面、填写表单等精细操作。凭借其卓越的视觉理解和推理能力，该模型能够深刻洞察网页内容，从而协助用户高效完成各类任务，例如从海量网页中精准提取所需信息，或是井井有条地整理个人笔记。在各项基准测试中，Gemini 2.5 Computer Use 都展现出了令人瞩目的优异表现，并且响应速度极快。开发者可以通过 Google AI Studio 和 Vertex AI 平台便捷地集成和使用此模型，而普通用户则可以在 Browserbase 提供的托管演示环境中亲身体验其神奇之处。

Gemini 2.5 Computer Use 的核心能力

精妙的浏览器操控：模型能够直接在浏览器界面上执行点击、滚动、输入等基础操作，为用户在网络世界中的各类任务提供强大的自动化支持。
多步骤任务的自动化执行：它能够胜任处理一系列复杂、多步骤的任务，例如，从一个网站抓取数据并无缝地将其录入另一个系统，或是智能化地安排后续的预约事宜。
强大的视觉洞察与智能推理：通过对网页视觉元素的深度解析，模型能够识别页面上的各种组件，并根据用户的指令进行智能推理，预测并执行下一步的最佳操作。
严谨的安全保障机制：在执行每一项动作之前，的安保服务都会对潜在风险进行周全的评估。对于高风险的操作，模型会主动请求用户确认，从而确保整个过程的安全无虞。

Gemini 2.5 Computer Use 的技术基石

核心驱动力：该模型通过 Gemini API 中新增的 computer_use 工具实现，该工具赋予了模型直接与用户界面进行交互的能力。
信息输入与输出流：
- 输入信息：包括用户的具体指令、当前屏幕画面的截图，以及之前执行过的操作记录。用户还可以选择性地排除某些 UI 动作，或者集成自定义的函数功能。
- 输出信息：模型会生成相应的响应，通常表现为代表 UI 操作的函数调用，例如点击、输入或滚动等。对于一些高风险的操作，模型会主动向用户发起确认请求。
持续循环的执行流程：模型在一个动态的循环流程中运行。在每次执行完一个动作后，系统会将最新的屏幕截图和当前网页地址反馈给模型，从而重新启动新的循环。这个循环会一直持续下去，直到任务成功完成、出现意外错误，或者因为安全机制的介入或用户的决定而终止。
完善的安全防护体系：在模型的推理阶段，一个的安保服务会对模型拟执行的每一个动作进行严格的审查，以确保操作的安全性。开发者可以设定在面对特定高风险操作时，智能体必须拒绝执行，或者必须先征得用户的同意。例如，这项机制可以有效阻止模型绕过验证码，或是不当地操控医疗设备等。

Gemini 2.5 Computer Use 的探索入口

官方资讯页面：https://blog.google/technology/google-deepmind/gemini-computer-use-model/
深度技术解析：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf