HyperEyes

AI工具12分钟前更新 AI工具集
0 0 0

HyperEyes – 小红书联合剑桥推出的并行多模态搜索智能体

HyperEyes,一项由小红书与剑桥大手打造的革新性智能体,正以前所未有的方式重塑多模态搜索的格局。它独创的UGS(Unified Grounding Search)范式,将视觉定位与信息检索巧妙地融为一体,演化成一个单一的原子动作,从而实现了在一次交互中同时处理并搜索图像内多个目标的能力。

HyperEyes的独特之处

HyperEyes并非简单的搜索工具,而是一个集成了前沿技术的智能体。它运用一种名为“双粒度效率感知强化学习”的框架,在多个基准测试中展现出卓越性能。以其30B版本为例,在准确率方面,它比同等规模的最强开源模型高出9.9个百分点;而在效率上,工具调用轮次更是减少了惊人的5.3倍。这种在准确率与效率之间取得的帕累托最优,标志着HyperEyes在追求极致用户体验上的重要突破。

HyperEyes的核心能力概览

  • 并行化多模态搜寻:告别传统繁琐的“裁剪-搜索”串联模式,HyperEyes能在单次请求内同步定位并检索图片中的多个对象,极大地提升了搜索效率。
  • 整合式有据检索:通过将视觉定位框直接整合到检索动作的参数中,HyperEyes实现了一次函数调用即可携带多个目标框,真正做到“统一有据”。
  • 渐进式优化采样:借助递增的轮次预算,HyperEyes能够逐步提炼出高效的搜索轨迹,并构建出近3万条去冗余的并行种子数据。
  • 双重效率感知强化学习:其核心的TRACE机制动态收紧轨迹级的效率标准,而OPD则在失败的轨迹上注入Token级的纠错信号,双管齐下,全面提升模型性能。
  • IMEB基准评估体系:为客观评估多实体视觉搜索能力,HyperEyes发布了包含300个实例的多实体视觉评测集,并配套CAS评分,协同量化准确率与搜索效率。
  • 多工具协作搜索:集成了图像搜索与文本搜索两大工具,HyperEyes能够同时获取视觉与文字证据,为用户提供更全面的信息支持。

HyperEyes的技术基石

  • UGS动作空间革新:HyperEyes将视觉定位从的预处理步骤,转变为检索动作的内在参数,从根本上打通了单轮多目标并发搜索的通道。
  • 并行数据合成流水线:通过拼接多种类图片来合成包含多实体的查询,并利用图谱随机游走构建多约束交集问题,有效避免了“捷径解”的出现。
  • TRACE动态参考奖励机制:以当前最优轨迹作为动态标尺,仅当模型表现更优时才给予奖励,且每轮自动收紧标准,激励模型不断追求更高效率。
  • OPD非对称策略蒸馏:当轨迹最终未能给出正确答案时,235B的教师模型将介入,为失败轨迹提供密集的Token级监督,从而保护模型高效并发的固有能力。
  • 联合优化目标设计:GRPO算法结合了轨迹级的效率奖励与Token级的蒸馏损失,实现了策略网络在准确率与效率上的同步提升。
  • CAS成本感知评分体系:采用Acc²×100/(N_tok+2N_tool+1)这一公式,将准确率、Token消耗和工具轮次等要素统一纳入效率评估范畴。

如何驾驭HyperEyes

  • 获取开源资源:您可以在GitHub仓库 https://github.com/DeepExperience/HyperEyes 找到HyperEyes的全部开源代码。
  • 部署基础模型:请下载并配置Qwen3-VL-30B或235B作为视觉语言模型的主干,并确保您的GPU显存能够满足推理需求。
  • 配置外部检索工具:接入如Bing Image Search、Google Custom Search等图像和文本搜索API,作为Agent执行UGS并行搜索的外部工具。
  • 输入多实体查询:上传包含多个目标的复杂图片,并输入自然语言问题,HyperEyes将自动为您执行UGS统一有据搜索,实现单轮并发定位与检索。
  • 审阅并行搜索结果:模型将以结构化的形式返回检索结果和最终答案,其中包含每个实体的视觉与文本证据。
  • 量化搜索效率:通过CAS(成本感知评分)指标,您可以全面量化评估搜索过程中的准确率、Token消耗及工具调用轮次等综合效率。

HyperEyes的突出优势

  • 效率的飞跃式提升:30B版本平均仅需2.2次工具调用,远低于同规模最强开源模型的1/5,效率提升达5.3倍。
  • 准确率的领先地位:在6个基准测试中,准确率超越同规模最强开源模型9.9%;235B版本更是以1.1%的微弱差距接近Gemini-3.1-Pro。
  • 抗噪声鲁棒性增强:并行策略有效规避了过度检索带来的“幻觉”问题,在混合真假证据的测试中,准确率提升了3.7%-5.8%。
  • 消除错误级联效应:UGS范式消除了对串行裁剪的依赖,避免了前置定位偏差对后续搜索结果的污染。
  • 实现帕累托最优:在准确率与效率的联合前沿上全面占优,CAS评分更是达到次优开源模型的7.6倍。
  • 全栈效率重塑:从动作空间、数据合成到强化学习训练,HyperEyes进行了系统性的底层重构,彻底解决了传统串行搜索的瓶颈。

HyperEyes的项目链接

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes与同类竞品的比较

对比维度HyperEyes-30BDeepEyes-V2VDR
开发团队小红书/剑桥大学小红书未公开
搜索范式并行并发(UGS)串行裁剪-搜索串行深度搜索
平均工具轮次2.23.611.6
6基准平均准确率64.0%39.1%54.1%
IMEB准确率46.7%18.0%21.2%
CAS效率评分0.9100.1190.014
核心机制TRACE+OPD双粒度RL工具奖励激励多轮深度推理
错误级联风险免疫(原子动作)高风险中等风险

HyperEyes的广泛应用场景

  • 多人物视觉推理:精准识别合影中特定人物的身份、职业及相关历史,并同步检索其生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,快速获取价格、品牌及用户评价等关键信息。
  • 跨模态知识问答:解答涉及图片中多个物体、地标或艺术品之间复杂关系的查询。
  • 新闻事实核查:对包含多人物、多场景的新闻图片进行并发检索,验证真实性与背景信息。
  • 学术图表解析:对论文截图中的多个图表、公式和引用进行并行定位与内容检索。
  • 社交媒体内容审核:对复杂图片中的多个实体进行并发搜索,快速识别违规或误导性内容。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...