DeepEyes

DeepEyes – 小红书联合西安交大推出的多模态深度思考模型

DeepEyes

DeepEyes 是由小红书团队携手西安交通大学倾力打造的多模态深度思考模型，它如同拥有“火眼金睛”，能够像 OpenAI o3 一样“用图思考”。借助端到端强化学习，DeepEyes 摆脱了对监督微调（SFT）的依赖，通过动态调用图像工具，如裁剪和缩放，精细化地感知和理解视觉细节。在视觉推理基准测试 V* Bench 上，DeepEyes 展现出高达 90.1% 的准确率，展现了其强大的视觉搜索和多模态推理能力。

DeepEyes：开启“用图思考”的智能时代

DeepEyes，这款由小红书团队与西安交通大合研发的创新型多模态深度思考模型，引领着视觉智能的新潮流。它的核心在于模拟人类的思考方式，通过“用图思考”的能力，实现对视觉信息的深度理解，并结合文本信息进行精准推理。

核心功能：

图像深度解读：告别“看图”的浅层理解，DeepEyes 能够“用图思考”，在推理过程中主动调用图像工具，如裁剪和缩放，从而更精细地捕捉细节，提升理解的深度。
高效视觉搜索：即使在高分辨率图像中，DeepEyes 也能迅速定位细小物体的踪迹或模糊区域。通过裁剪和缩放等工具，它能对关键细节进行深入分析，显著提高搜索的准确性。
减少幻觉，增强可靠性： DeepEyes 专注于图像细节，有效降低了模型生成回答时出现幻觉的可能性，从而提升了答案的准确性和可靠性。
多模态融合推理：视觉与文本信息无缝融合，DeepEyes 具备强大的多模态推理能力，在处理复杂任务时游刃有余。
自主工具调用：模型能够自主决定何时调用图像工具，例如裁剪、缩放等，无需外部工具的辅助，实现更高效、更精准的推理。

了解更多：

想深入了解 DeepEyes 的技术细节和应用案例？欢迎访问以下资源：

项目官网：https://visual-agent.github.io/
GitHub 代码仓库：https://github.com/Visual-Agent/DeepEyes
HuggingFace 模型库：https://huggingface.co/ChenShawn/DeepEyes
技术论文（arXiv）：https://arxiv.org/pdf/2505.14362

应用场景：

DeepEyes 的应用前景广阔，以下是几个极具潜力的应用场景：

教育领域：辅助学生解析试卷中的图表和几何图形，提供详细的解题步骤，助力高效学习。
医疗影像分析：辅助医生分析医学影像，提高诊断的准确性和效率，为患者提供更精准的治疗方案。
智能交通：实时分析路况图像，为自动驾驶系统提供更准确的决策依据，提升交通安全水平。
安防监控：分析监控视频，识别异常行为，增强公共安全，助力犯罪预防。
工业制造：在生产线上进行质量检测和设备故障预测，提高生产效率，降低维护成本。

常见问题解答：

关于 DeepEyes，您可能还会关心以下问题：

DeepEyes 和其他视觉模型有什么不同？ DeepEyes 最大的特色在于“用图思考”的能力，通过端到端强化学习和动态工具调用，实现了对视觉信息的深度理解和精准推理。
DeepEyes 的未来发展方向是什么？ DeepEyes 团队将持续优化模型性能，探索更多应用场景，致力于将其打造成为更智能、更可靠的多模态视觉推理工具。
如何参与 DeepEyes 的开发和应用？ 欢迎访问 DeepEyes 的 GitHub 仓库，参与开源项目的贡献。同时，也欢迎您将 DeepEyes 应用于您的项目中，共同推动视觉智能的发展。

阅读原文