Fara1.5

AI工具20分钟前更新 AI工具集
0 0 0

Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列

Fara1.5,一款出自微软研究院 AI Frontiers 实验室的革新性浏览器端智能体(CUA)模型系列,现已正式亮相。该系列模型拥有 4B、9B、27B 三种参数规模,均基于 Qwen3.5 模型进行深度微调。Fara1.5 独树一帜,仅依赖像素级浏览器截图作为输入,通过精妙的“观察—思考—行动”循环,能够精准输出鼠标与键盘操作。在 Online-Mind2Web 基准测试中,其 27B 版本展现出惊人的 72% 任务成功率,显著超越了 OpenAI Operator 和 Gemini 2.5 Computer Use 等知名模型。

Fara1.5 究竟是什么?

Fara1.5 是微软研究院 AI Frontiers 实验室精心打造的一系列浏览器端 AI 智能体(CUA)。该系列包含 4B、9B、27B 三种不同参数量的版本,它们都以 Qwen3.5 模型为基础,经过精心微调。Fara1.5 的核心在于其输入方式——纯粹的像素级浏览器截图。它遵循“观察—思考—行动”的迭代逻辑,能够输出精确的鼠标和键盘操作。在 Online-Mind2Web 基准测试中,27B 版本取得了 72% 的任务成功率,这一成就使其在同类产品中脱颖而出,超越了 OpenAI Operator 和 Gemini 2.5 Computer Use。此外,Fara1.5 还配套 MagenticLite 沙盒浏览器使用,能够胜任填写表单、跨站比价、预订活动等一系列复杂的网页任务,并且在执行关键操作前,会主动征求用户的确认,确保操作的安全性。

Fara1.5 的核心能力概览

  • 像素级浏览器操控:Fara1.5 能够直接解析浏览器截图,无需依赖 DOM 结构或无障碍树。它能精准执行点击(click)、输入(type)、滚动(scroll)、拖拽(drag)等像素级别的鼠标和键盘动作。
  • 网页专属的快捷指令:该模型内置了诸如网页搜索(web_search)、访问网址(visit_url)、返回上一页(go_back)等高级网页操作指令,极大地提升了任务执行的效率。
  • 情境感知元指令:Fara1.5 集成了记忆(memorize)、询问用户(ask_user)、完成任务(finish)等元指令,支持长程任务的记忆存储以及人机协作的交互模式。
  • 安全隔离的执行环境:所有操作均在 MagenticLite 沙盒浏览器中进行,为用户设备构建了坚实的安全屏障,所有操作均可追溯。
  • 多尺度部署选项:提供 4B、9B、27B 三个版本,能够灵活适应从边缘设备轻量化部署到高性能场景的需求。

Fara1.5 的技术驱动力

  • 基础模型与微调:以 Qwen3.5 为基石,经过大约 200 万条高质量样本的监督微调(SFT)而成。
  • “观察—思考—行动”循环:每一步的输入都包含完整的对话历史以及最近的 3 张浏览器截图。模型首先生成推理过程(thought),随后预测下一步的原子动作(action)。
  • 滑动窗口损失掩码机制:交叉熵损失仅针对最近 3 个轮次的 thought 和 action token 计算,历史截图和早期步骤仅作为上下文信息。
  • FaraGen1.5 合成数据引擎:通过教师智能体(GPT-5.4 结合 Fara1.5 工具能力约束)与用户模拟器进行多轮交互,生成行为轨迹。这些轨迹经过正确性、效率和用户交互三重验证,补充了真实网页难以获取的登录状态、不可逆操作等数据。
  • 训练数据构成比例:网页轨迹占 60%,合成环境数据占 12.8%,表单填写与用户交互数据占 12.5%,事实锚定数据占 8.8%,视觉问答数据占 4.9%。

如何启 Fara1.5 的旅程

  • 环境准备:首先,请安装 MagenticLite 沙盒浏览器,这是一个专为 Fara1.5 系列智能体设计的隔离执行环境。
  • 模型加载:根据您的硬件条件和性能需求,选择并加载 Fara1.5-4B、9B 或 27B 模型,并完成浏览器实例的初始化。
  • 下达指令:使用自然语言清晰地描述您想要完成的网页任务,例如:“请在纽约预订 11 月 24 日至 28 日的酒店房间”。
  • 循环执行与反馈:模型将自动进入“观察—思考—行动”循环,读取截图、进行推理并执行单步操作,直至任务完成。在遇到信息不足或需要用户决策的关键节点时,模型会主动发起询问。
  • 确认与干预机制:当信息缺失、任务指令模糊或即将执行不可逆操作时,模型将暂停并请求您的确认,以确保操作的安全性。

Fara1.5 的突出亮点

  • 同等规模下的性能标杆:在 Online-Mind2Web 基准上,Fara1.5-9B 取得了 63.4% 的成功率,相较于同等参数规模的 GUI-Owl-1.5-8B(48.6%),性能提升了近 15 个百分点,树立了该参数级别的新标杆。而 Fara1.5-4B 以 57.3% 的成绩,已接近前代 Fara-7B(34.1%)的两倍,充分证明了小模型也能胜任复杂的浏览器任务。
  • 纯视觉驱动,于外部依赖:Fara1.5 仅凭像素截图理解网页,无需解析 DOM 树或依赖无障碍接口,因此具有更强的适应性,不受网页结构变化或前端框架的限制。
  • 打破公开网页的局限:通过 FaraGen1.5 合成数据引擎,模型能够模拟邮箱、日历、媒体平台等需要登录或涉及不可逆操作的场景,将模型的能力从“只读浏览”扩展到“可写交互”的范畴。
  • 可在普通硬件上部署:4B 和 9B 版本可以在普通消费级硬件上流畅运行,大大降低了企业和开发者的使用门槛。27B 版本则为追求极致性能的场景提供了选择。

Fara1.5 的项目链接

  • 官方项目页面:https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
  • GitHub 代码库:https://github.com/microsoft/fara

Fara1.5 与同类竞品之比较

对比维度Fara1.5-27BFara1.5-4BOpenAI Operator
开发方微软研究院微软研究院OpenAI
参数规模27B4B未公开(专有)
Online-Mind2Web72.0%57.3%58.3%
WebVoyager88.6%80.8%
开源/部署开源权重,支持本地部署开源权重,对边缘设备友好云端专有 API
安全边界MagenticLite 沙盒 + 主动询问用户同上专有沙盒环境
核心优势纯视觉模型,无 DOM 依赖,规模效应显著小模型,高性价比强大的生态整合与品牌影响力

Fara1.5 的应用前景广阔

  • 自动化表单填写助手:在招聘、报销、预约等需要填写大量信息的页面,Fara1.5 能自动识别字段并填充内容,遇到信息缺失时会主动寻求用户帮助。
  • 智能比价与信息搜集:可在多个电商或信息网站间自动导航、提取商品参数和价格,并生成对比报告。
  • 日程安排与预订专家:能够高效完成酒店、机票、会议室等需要多步操作、日期选择和支付确认的预订流程。
  • 邮件及内容管理助手:在合成环境下,可执行发送邮件、保存草稿、上传附件等涉及账户操作的任务。
  • 无障碍交互的革新者:为视障或行动不便的用户提供自然语言驱动的网页导航和交互代理,提升互联网的可及性。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...