SenseNova-MARS

AI工具18小时前更新 AI工具集
2 0 0

SenseNova-MARS – 商汤科技开源的多模态自主推理模型

SenseNova-MARS:引领AI迈向“能执行”新纪元

商汤科技隆重推出SenseNova-MARS,一款开创性的多模态自主推理模型,其8B与32B两种参数规模为AI能力边界注入了新的活力。作为业界首个将动态视觉推理与深度图文搜索融为一体的Agentic VLM,SenseNova-MARS具备了如同智能体般自主规划任务、灵活调用图像裁剪、文本搜索以及图像搜索等三大核心工具的能力。更为惊艳的是,它能够在无人为干预的情况下,完成复杂的多跳推理任务。

在MMSearch、HR-MMSearch、FVQA等七项权威基准测试中,SenseNova-MARS-32B以69.74分的平均成绩,力压Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源模型领域树立了新的标杆。这标志着AI技术正从单纯的“能回答”向更具主动性的“能执行”实现关键性飞跃。

SenseNova-MARS的卓越功能

  • 多模态搜索与智能推理:该模型能够无缝整合图像与文本信息,进行跨模态的信息检索,并动态调用一系列工具来完成复杂的知识推理过程。
  • 精细化视觉洞察力:SenseNova-MARS能够处理高达4K/8K的超高清图像,甚至能够精准识别画面中占比不足5%的微小视觉细节,实现前所未有的细粒度分析。
  • 自主智能体执行能力:模型能够自主制定行动策略,通过多工具的无缝协同,形成完整的任务闭环,从而在无需人工介入的情况下,圆满解决各种棘手问题。

SenseNova-MARS的深层技术解析

  • 双阶段训练架构:模型的训练过程分为两个关键阶段。第一阶段,通过约3,000个高质量的多轮交互轨迹进行监督微调,为模型打下坚实的基础,使其掌握基础的工具使用模式。第二阶段,则运用BN-GSPO强化学习算法,通过组内与批次双重归一化技术,稳定训练过程,显著提升模型在多工具协同调用及推理决策方面的能力。
  • BN-GSPO强化学习算法:为解决多工具场景下因轨迹长度和奖励尺度差异导致的训练不稳定性问题,该算法创新性地采用了组归一化,消除同组样本间的内部偏差;随后进行批次归一化,平衡不同任务的学习信号,从而实现高效且稳定的多工具策略优化。
  • 动作空间与工具设计:在每轮交互中,模型可以在文本搜索、图像搜索、图像裁剪以及终止回答这四种动作中进行选择。图像裁剪功能通过标准化边界框坐标实现精准局部放大。所有工具的调用均严格遵循JSON格式规范,确保了交互的一致性与准确性。
  • 奖励模型机制:模型利用GPT-4o作为评判器,从答案的准确性和格式的合规性两个维度提供稀疏奖励。准确性奖励评估最终答案与真实值的语义匹配程度,而格式奖励则确保每轮输出都包含规范的思考过程和工具调用结构。
  • 自动化数据合成:借助多模态智能体构建的数据引擎,通过精细的视觉锚点定位、多跳深度关联检索以及闭环自洽性校验等环节,模型能够自动挖掘跨网页的实体逻辑,构建高度复杂的推理链路,并有效过滤掉虚假数据,保证了训练数据的质量。

SenseNova-MARS的获取途径

  • GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS
  • HuggingFace模型库
    • https://huggingface.co/sensenova/SenseNova-MARS-32B
    • https://huggingface.co/sensenova/SenseNova-MARS-8B
  • arXiv技术论文:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的广阔应用前景

  • 体育竞技分析:模型能够识别赛车服上极其微小的品牌标识,进而查询相关企业和车手背景信息,并自动计算时间差值,为赛事数据核实提供有力支持。
  • 商业情报挖掘:通过识别峰会照片中的企业标志,模型能够快速搜集产品参数及融资信息,为分析行业竞争态势提供宝贵线索。
  • 新闻事实核查:对于高分辨率的新闻图片,模型可以追溯发生的背景以及人物的身份,有效地验证社交媒体上流传信息的真实性。
  • 学术研究与教育:模型能够自动解析论文中的图表数据,并检索相关的研究背景信息,极大地加速了文献综述和知识整合的进程。
  • 地理旅行探索:通过识别地标、路牌等细节信息,模型可实时检索相关的历史文化资讯,为用户提供沉浸式的智能导览体验。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...