Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列
Fara1.5,一款出自微软研究院 AI Frontiers 实验室的革新性浏览器端智能体(CUA)模型系列,现已正式亮相。该系列模型拥有 4B、9B、27B 三种参数规模,均基于 Qwen3.5 模型进行深度微调。Fara1.5 独树一帜,仅依赖像素级浏览器截图作为输入,通过精妙的“观察—思考—行动”循环,能够精准输出鼠标与键盘操作。在 Online-Mind2Web 基准测试中,其 27B 版本展现出惊人的 72% 任务成功率,显著超越了 OpenAI Operator 和 Gemini 2.5 Computer Use 等知名模型。
Fara1.5 究竟是什么?
Fara1.5 是微软研究院 AI Frontiers 实验室精心打造的一系列浏览器端 AI 智能体(CUA)。该系列包含 4B、9B、27B 三种不同参数量的版本,它们都以 Qwen3.5 模型为基础,经过精心微调。Fara1.5 的核心在于其输入方式——纯粹的像素级浏览器截图。它遵循“观察—思考—行动”的迭代逻辑,能够输出精确的鼠标和键盘操作。在 Online-Mind2Web 基准测试中,27B 版本取得了 72% 的任务成功率,这一成就使其在同类产品中脱颖而出,超越了 OpenAI Operator 和 Gemini 2.5 Computer Use。此外,Fara1.5 还配套 MagenticLite 沙盒浏览器使用,能够胜任填写表单、跨站比价、预订活动等一系列复杂的网页任务,并且在执行关键操作前,会主动征求用户的确认,确保操作的安全性。
Fara1.5 的核心能力概览
- 像素级浏览器操控:Fara1.5 能够直接解析浏览器截图,无需依赖 DOM 结构或无障碍树。它能精准执行点击(click)、输入(type)、滚动(scroll)、拖拽(drag)等像素级别的鼠标和键盘动作。
- 网页专属的快捷指令:该模型内置了诸如网页搜索(web_search)、访问网址(visit_url)、返回上一页(go_back)等高级网页操作指令,极大地提升了任务执行的效率。
- 情境感知元指令:Fara1.5 集成了记忆(memorize)、询问用户(ask_user)、完成任务(finish)等元指令,支持长程任务的记忆存储以及人机协作的交互模式。
- 安全隔离的执行环境:所有操作均在 MagenticLite 沙盒浏览器中进行,为用户设备构建了坚实的安全屏障,所有操作均可追溯。
- 多尺度部署选项:提供 4B、9B、27B 三个版本,能够灵活适应从边缘设备轻量化部署到高性能场景的需求。
Fara1.5 的技术驱动力
- 基础模型与微调:以 Qwen3.5 为基石,经过大约 200 万条高质量样本的监督微调(SFT)而成。
- “观察—思考—行动”循环:每一步的输入都包含完整的对话历史以及最近的 3 张浏览器截图。模型首先生成推理过程(thought),随后预测下一步的原子动作(action)。
- 滑动窗口损失掩码机制:交叉熵损失仅针对最近 3 个轮次的 thought 和 action token 计算,历史截图和早期步骤仅作为上下文信息。
- FaraGen1.5 合成数据引擎:通过教师智能体(GPT-5.4 结合 Fara1.5 工具能力约束)与用户模拟器进行多轮交互,生成行为轨迹。这些轨迹经过正确性、效率和用户交互三重验证,补充了真实网页难以获取的登录状态、不可逆操作等数据。
- 训练数据构成比例:网页轨迹占 60%,合成环境数据占 12.8%,表单填写与用户交互数据占 12.5%,事实锚定数据占 8.8%,视觉问答数据占 4.9%。
如何启 Fara1.5 的旅程
- 环境准备:首先,请安装 MagenticLite 沙盒浏览器,这是一个专为 Fara1.5 系列智能体设计的隔离执行环境。
- 模型加载:根据您的硬件条件和性能需求,选择并加载 Fara1.5-4B、9B 或 27B 模型,并完成浏览器实例的初始化。
- 下达指令:使用自然语言清晰地描述您想要完成的网页任务,例如:“请在纽约预订 11 月 24 日至 28 日的酒店房间”。
- 循环执行与反馈:模型将自动进入“观察—思考—行动”循环,读取截图、进行推理并执行单步操作,直至任务完成。在遇到信息不足或需要用户决策的关键节点时,模型会主动发起询问。
- 确认与干预机制:当信息缺失、任务指令模糊或即将执行不可逆操作时,模型将暂停并请求您的确认,以确保操作的安全性。
Fara1.5 的突出亮点
- 同等规模下的性能标杆:在 Online-Mind2Web 基准上,Fara1.5-9B 取得了 63.4% 的成功率,相较于同等参数规模的 GUI-Owl-1.5-8B(48.6%),性能提升了近 15 个百分点,树立了该参数级别的新标杆。而 Fara1.5-4B 以 57.3% 的成绩,已接近前代 Fara-7B(34.1%)的两倍,充分证明了小模型也能胜任复杂的浏览器任务。
- 纯视觉驱动,于外部依赖:Fara1.5 仅凭像素截图理解网页,无需解析 DOM 树或依赖无障碍接口,因此具有更强的适应性,不受网页结构变化或前端框架的限制。
- 打破公开网页的局限:通过 FaraGen1.5 合成数据引擎,模型能够模拟邮箱、日历、媒体平台等需要登录或涉及不可逆操作的场景,将模型的能力从“只读浏览”扩展到“可写交互”的范畴。
- 可在普通硬件上部署:4B 和 9B 版本可以在普通消费级硬件上流畅运行,大大降低了企业和开发者的使用门槛。27B 版本则为追求极致性能的场景提供了选择。
Fara1.5 的项目链接
- 官方项目页面:https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
- GitHub 代码库:https://github.com/microsoft/fara
Fara1.5 与同类竞品之比较
| 对比维度 | Fara1.5-27B | Fara1.5-4B | OpenAI Operator |
|---|---|---|---|
| 开发方 | 微软研究院 | 微软研究院 | OpenAI |
| 参数规模 | 27B | 4B | 未公开(专有) |
| Online-Mind2Web | 72.0% | 57.3% | 58.3% |
| WebVoyager | 88.6% | 80.8% | — |
| 开源/部署 | 开源权重,支持本地部署 | 开源权重,对边缘设备友好 | 云端专有 API |
| 安全边界 | MagenticLite 沙盒 + 主动询问用户 | 同上 | 专有沙盒环境 |
| 核心优势 | 纯视觉模型,无 DOM 依赖,规模效应显著 | 小模型,高性价比 | 强大的生态整合与品牌影响力 |
Fara1.5 的应用前景广阔
- 自动化表单填写助手:在招聘、报销、预约等需要填写大量信息的页面,Fara1.5 能自动识别字段并填充内容,遇到信息缺失时会主动寻求用户帮助。
- 智能比价与信息搜集:可在多个电商或信息网站间自动导航、提取商品参数和价格,并生成对比报告。
- 日程安排与预订专家:能够高效完成酒店、机票、会议室等需要多步操作、日期选择和支付确认的预订流程。
- 邮件及内容管理助手:在合成环境下,可执行发送邮件、保存草稿、上传附件等涉及账户操作的任务。
- 无障碍交互的革新者:为视障或行动不便的用户提供自然语言驱动的网页导航和交互代理,提升互联网的可及性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


