Fara1.5

Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列

Fara1.5，一款出自微软研究院 AI Frontiers 实验室的革新性浏览器端智能体（CUA）模型系列，现已正式亮相。该系列模型拥有 4B、9B、27B 三种参数规模，均基于 Qwen3.5 模型进行深度微调。Fara1.5 独树一帜，仅依赖像素级浏览器截图作为输入，通过精妙的“观察—思考—行动”循环，能够精准输出鼠标与键盘操作。在 Online-Mind2Web 基准测试中，其 27B 版本展现出惊人的 72% 任务成功率，显著超越了 OpenAI Operator 和 Gemini 2.5 Computer Use 等知名模型。

Fara1.5 究竟是什么？

Fara1.5 是微软研究院 AI Frontiers 实验室精心打造的一系列浏览器端 AI 智能体（CUA）。该系列包含 4B、9B、27B 三种不同参数量的版本，它们都以 Qwen3.5 模型为基础，经过精心微调。Fara1.5 的核心在于其输入方式——纯粹的像素级浏览器截图。它遵循“观察—思考—行动”的迭代逻辑，能够输出精确的鼠标和键盘操作。在 Online-Mind2Web 基准测试中，27B 版本取得了 72% 的任务成功率，这一成就使其在同类产品中脱颖而出，超越了 OpenAI Operator 和 Gemini 2.5 Computer Use。此外，Fara1.5 还配套 MagenticLite 沙盒浏览器使用，能够胜任填写表单、跨站比价、预订活动等一系列复杂的网页任务，并且在执行关键操作前，会主动征求用户的确认，确保操作的安全性。

Fara1.5 的核心能力概览

像素级浏览器操控：Fara1.5 能够直接解析浏览器截图，无需依赖 DOM 结构或无障碍树。它能精准执行点击（click）、输入（type）、滚动（scroll）、拖拽（drag）等像素级别的鼠标和键盘动作。
网页专属的快捷指令：该模型内置了诸如网页搜索（web_search）、访问网址（visit_url）、返回上一页（go_back）等高级网页操作指令，极大地提升了任务执行的效率。
情境感知元指令：Fara1.5 集成了记忆（memorize）、询问用户（ask_user）、完成任务（finish）等元指令，支持长程任务的记忆存储以及人机协作的交互模式。
安全隔离的执行环境：所有操作均在 MagenticLite 沙盒浏览器中进行，为用户设备构建了坚实的安全屏障，所有操作均可追溯。
多尺度部署选项：提供 4B、9B、27B 三个版本，能够灵活适应从边缘设备轻量化部署到高性能场景的需求。

Fara1.5 的技术驱动力

基础模型与微调：以 Qwen3.5 为基石，经过大约 200 万条高质量样本的监督微调（SFT）而成。
“观察—思考—行动”循环：每一步的输入都包含完整的对话历史以及最近的 3 张浏览器截图。模型首先生成推理过程（thought），随后预测下一步的原子动作（action）。
滑动窗口损失掩码机制：交叉熵损失仅针对最近 3 个轮次的 thought 和 action token 计算，历史截图和早期步骤仅作为上下文信息。
FaraGen1.5 合成数据引擎：通过教师智能体（GPT-5.4 结合 Fara1.5 工具能力约束）与用户模拟器进行多轮交互，生成行为轨迹。这些轨迹经过正确性、效率和用户交互三重验证，补充了真实网页难以获取的登录状态、不可逆操作等数据。
训练数据构成比例：网页轨迹占 60%，合成环境数据占 12.8%，表单填写与用户交互数据占 12.5%，事实锚定数据占 8.8%，视觉问答数据占 4.9%。

如何启 Fara1.5 的旅程

环境准备：首先，请安装 MagenticLite 沙盒浏览器，这是一个专为 Fara1.5 系列智能体设计的隔离执行环境。
模型加载：根据您的硬件条件和性能需求，选择并加载 Fara1.5-4B、9B 或 27B 模型，并完成浏览器实例的初始化。
下达指令：使用自然语言清晰地描述您想要完成的网页任务，例如：“请在纽约预订 11 月 24 日至 28 日的酒店房间”。
循环执行与反馈：模型将自动进入“观察—思考—行动”循环，读取截图、进行推理并执行单步操作，直至任务完成。在遇到信息不足或需要用户决策的关键节点时，模型会主动发起询问。
确认与干预机制：当信息缺失、任务指令模糊或即将执行不可逆操作时，模型将暂停并请求您的确认，以确保操作的安全性。

Fara1.5 的突出亮点

同等规模下的性能标杆：在 Online-Mind2Web 基准上，Fara1.5-9B 取得了 63.4% 的成功率，相较于同等参数规模的 GUI-Owl-1.5-8B（48.6%），性能提升了近 15 个百分点，树立了该参数级别的新标杆。而 Fara1.5-4B 以 57.3% 的成绩，已接近前代 Fara-7B（34.1%）的两倍，充分证明了小模型也能胜任复杂的浏览器任务。
纯视觉驱动，于外部依赖：Fara1.5 仅凭像素截图理解网页，无需解析 DOM 树或依赖无障碍接口，因此具有更强的适应性，不受网页结构变化或前端框架的限制。
打破公开网页的局限：通过 FaraGen1.5 合成数据引擎，模型能够模拟邮箱、日历、媒体平台等需要登录或涉及不可逆操作的场景，将模型的能力从“只读浏览”扩展到“可写交互”的范畴。
可在普通硬件上部署：4B 和 9B 版本可以在普通消费级硬件上流畅运行，大大降低了企业和开发者的使用门槛。27B 版本则为追求极致性能的场景提供了选择。

Fara1.5 的项目链接

官方项目页面：https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
GitHub 代码库：https://github.com/microsoft/fara

Fara1.5 与同类竞品之比较

对比维度	Fara1.5-27B	Fara1.5-4B	OpenAI Operator
开发方	微软研究院	微软研究院	OpenAI
参数规模	27B	4B	未公开（专有）
Online-Mind2Web	72.0%	57.3%	58.3%
WebVoyager	88.6%	80.8%	—
开源/部署	开源权重，支持本地部署	开源权重，对边缘设备友好	云端专有 API
安全边界	MagenticLite 沙盒 + 主动询问用户	同上	专有沙盒环境
核心优势	纯视觉模型，无 DOM 依赖，规模效应显著	小模型，高性价比	强大的生态整合与品牌影响力