日日新SenseNova V6

AI工具1年前 (2025)更新 AI工具集

日日新SenseNova V6 – 商汤推出的多模态融合模型系列

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态融合大模型系列，基于6000亿参数的多模态MoE架构，能够原生地融合文本、图像和视频信息。该模型在纯文本和多模态任务中表现出色，多项性能指标超越了GPT-4.5和Gemini 2.0 Pro等国际主流模型。

日日新SenseNova V6是什么

日日新SenseNova V6是商汤科技推出的最新一代多模态融合大模型系列，采用6000亿参数的多模态MoE架构，能够实现文本、图像和视频的无缝融合。该模型在纯文本任务及多模态任务中展现了卓越的性能，多个指标均超越了当前领先的模型如GPT-4.5和Gemini 2.0 Pro。

日日新SenseNova V6提供四个不同版本，其中SenseNova V6 Pro具备6200亿参数的混合专家架构，支持文本、图像和视频的原生融合，对标国际主流模型；SenseNova V6 Reasoner Pro则具备推理能力，能够协助解决复杂问题；SenseNova V6 Video专注于视频理解，适合教育和文旅等场景；而SenseNova V6 Omni则是轻量级全模态交互模型，提供实时互动体验。该模型具备强大的推理、交互能力及长时记忆，能够对中长视频进行深入解析，并在实时音视频互动中准确回答问题，展现情感化的表达。其应用涵盖教育辅导、具身智能等领域，为机器人赋予大脑、眼睛、耳朵和嘴巴等功能。

日日新SenseNova V6的主要功能

视频处理与分析：支持对中长视频进行深入的推理和分析。
实时音视频交互：能够精确回答关于视频内容的问题，如人物关系和情节发展等。
教育辅导：识别手写内容，帮助孩子们解决数学题，提供一对一的引导式教学。
情感理解与表达：具备高度拟人化的感知、表达和情感理解能力，能够根据不同的对话内容和场景需求调整语气和情感。
具身智能：赋予机器人更强的感知与交互能力。

日日新SenseNova V6的技术原理

原生多模态融合训练技术：将文本、图像、视频和音频等多种信息在模型架构和训练过程中深度融合，避免传统方法中增强某一模态导致其他模态能力下降的问题，从而更好地处理复杂场景并捕捉跨模态细节。
多模态长思维链合成技术：通过多智能体协作，实现超长思维链的生成与验证，使模型具备长时间和多步骤的深度思考能力，适用于数学推导、科学分析和长文档理解等场景。
多模态混合增强学习：结合人类偏好的RLHF和基于确定性答案的RFT，平衡模型的逻辑推理能力与情感表达能力，确保在提升推理能力的同时，能自然地表达情感。
长视频统一表征和动态压缩：实现跨模态信息的高效对齐与压缩，将画面、语音、字幕及时间逻辑统一编码，形成连贯的时序表征，大幅提升处理效率。