HyperEyes

HyperEyes – 小红书联合剑桥推出的并行多模态搜索智能体

HyperEyes，一项由小红书与剑桥大手打造的革新性智能体，正以前所未有的方式重塑多模态搜索的格局。它独创的UGS（Unified Grounding Search）范式，将视觉定位与信息检索巧妙地融为一体，演化成一个单一的原子动作，从而实现了在一次交互中同时处理并搜索图像内多个目标的能力。

HyperEyes的独特之处

HyperEyes并非简单的搜索工具，而是一个集成了前沿技术的智能体。它运用一种名为“双粒度效率感知强化学习”的框架，在多个基准测试中展现出卓越性能。以其30B版本为例，在准确率方面，它比同等规模的最强开源模型高出9.9个百分点；而在效率上，工具调用轮次更是减少了惊人的5.3倍。这种在准确率与效率之间取得的帕累托最优，标志着HyperEyes在追求极致用户体验上的重要突破。

HyperEyes的核心能力概览

并行化多模态搜寻：告别传统繁琐的“裁剪-搜索”串联模式，HyperEyes能在单次请求内同步定位并检索图片中的多个对象，极大地提升了搜索效率。
整合式有据检索：通过将视觉定位框直接整合到检索动作的参数中，HyperEyes实现了一次函数调用即可携带多个目标框，真正做到“统一有据”。
渐进式优化采样：借助递增的轮次预算，HyperEyes能够逐步提炼出高效的搜索轨迹，并构建出近3万条去冗余的并行种子数据。
双重效率感知强化学习：其核心的TRACE机制动态收紧轨迹级的效率标准，而OPD则在失败的轨迹上注入Token级的纠错信号，双管齐下，全面提升模型性能。
IMEB基准评估体系：为客观评估多实体视觉搜索能力，HyperEyes发布了包含300个实例的多实体视觉评测集，并配套CAS评分，协同量化准确率与搜索效率。
多工具协作搜索：集成了图像搜索与文本搜索两大工具，HyperEyes能够同时获取视觉与文字证据，为用户提供更全面的信息支持。

HyperEyes的技术基石

UGS动作空间革新：HyperEyes将视觉定位从的预处理步骤，转变为检索动作的内在参数，从根本上打通了单轮多目标并发搜索的通道。
并行数据合成流水线：通过拼接多种类图片来合成包含多实体的查询，并利用图谱随机游走构建多约束交集问题，有效避免了“捷径解”的出现。
TRACE动态参考奖励机制：以当前最优轨迹作为动态标尺，仅当模型表现更优时才给予奖励，且每轮自动收紧标准，激励模型不断追求更高效率。
OPD非对称策略蒸馏：当轨迹最终未能给出正确答案时，235B的教师模型将介入，为失败轨迹提供密集的Token级监督，从而保护模型高效并发的固有能力。
联合优化目标设计：GRPO算法结合了轨迹级的效率奖励与Token级的蒸馏损失，实现了策略网络在准确率与效率上的同步提升。
CAS成本感知评分体系：采用Acc²×100/(N_tok+2N_tool+1)这一公式，将准确率、Token消耗和工具轮次等要素统一纳入效率评估范畴。

如何驾驭HyperEyes

获取开源资源：您可以在GitHub仓库 https://github.com/DeepExperience/HyperEyes 找到HyperEyes的全部开源代码。
部署基础模型：请下载并配置Qwen3-VL-30B或235B作为视觉语言模型的主干，并确保您的GPU显存能够满足推理需求。
配置外部检索工具：接入如Bing Image Search、Google Custom Search等图像和文本搜索API，作为Agent执行UGS并行搜索的外部工具。
输入多实体查询：上传包含多个目标的复杂图片，并输入自然语言问题，HyperEyes将自动为您执行UGS统一有据搜索，实现单轮并发定位与检索。
审阅并行搜索结果：模型将以结构化的形式返回检索结果和最终答案，其中包含每个实体的视觉与文本证据。
量化搜索效率：通过CAS（成本感知评分）指标，您可以全面量化评估搜索过程中的准确率、Token消耗及工具调用轮次等综合效率。

HyperEyes的突出优势

效率的飞跃式提升：30B版本平均仅需2.2次工具调用，远低于同规模最强开源模型的1/5，效率提升达5.3倍。
准确率的领先地位：在6个基准测试中，准确率超越同规模最强开源模型9.9%；235B版本更是以1.1%的微弱差距接近Gemini-3.1-Pro。
抗噪声鲁棒性增强：并行策略有效规避了过度检索带来的“幻觉”问题，在混合真假证据的测试中，准确率提升了3.7%-5.8%。
消除错误级联效应：UGS范式消除了对串行裁剪的依赖，避免了前置定位偏差对后续搜索结果的污染。
实现帕累托最优：在准确率与效率的联合前沿上全面占优，CAS评分更是达到次优开源模型的7.6倍。
全栈效率重塑：从动作空间、数据合成到强化学习训练，HyperEyes进行了系统性的底层重构，彻底解决了传统串行搜索的瓶颈。

HyperEyes的项目链接

GitHub仓库：https://github.com/DeepExperience/HyperEyes
arXiv技术论文：https://arxiv.org/abs/2605.07177

HyperEyes与同类竞品的比较

对比维度	HyperEyes-30B	DeepEyes-V2	VDR
开发团队	小红书/剑桥大学	小红书	未公开
搜索范式	并行并发(UGS)	串行裁剪-搜索	串行深度搜索
平均工具轮次	2.2	3.6	11.6
6基准平均准确率	64.0%	39.1%	54.1%
IMEB准确率	46.7%	18.0%	21.2%
CAS效率评分	0.910	0.119	0.014
核心机制	TRACE+OPD双粒度RL	工具奖励激励	多轮深度推理
错误级联风险	免疫（原子动作）	高风险	中等风险