Confucius4

Confucius4 – 网易有道开源的多模态推理模型

Confucius4：网易有道AI团队匠心打造的高级数学推理利器

Confucius4，这款由网易有道AI团队倾力研发的开源多模态大语言模型，以其强大的高级数学推理能力，在人工智能领域掀起了一股新的浪潮。它基于先进的Qwen3.5-27B架构，专为应对复杂的数学推理挑战而生。通过精妙的迭代SFT+RL训练范式、纯文本推理数据的精心注入以及细致入微的CoT（思维链）优化，Confucius4在同等规模的模型中脱颖而出，达到了业界领先（SOTA）的性能水平，同时 remarkable 地将推理链长度缩短了43.2%，实现了效率与精度的完美平衡。

Confucius4的独特之处

Confucius4并非一款普通的大模型，它是一款为高级数学推理场景量身定制的开源多模态大模型。其核心优势在于：

卓越的多模态数学推理能力：Confucius4能够理解并处理图文混合输入，在解答几何、代数、逻辑等各类复杂数学问题时展现出非凡的实力。在Math-Hard-500、MathVision、logicVista等权威基准测试中，它均取得了令人瞩目的优异成绩。
创新的训练优化机制：模型采用了迭代SFT（监督微调）+RL（强化学习）的训练范式。通过智能过滤图像数据，构建高性价比的训练集，并在此基础上不断优化，Confucius4在文本和多模态场景下的性能得到了持续的提升。
强大的纯文本推理基础：在SFT阶段，Confucius4注入了大量的纯文本推理数据，这极大地巩固了其推理底座，使得在Math-Hard-500基准上的性能提升高达23.2%。
精炼的思维链生成：通过对思维链进行精细化重构，并引入长度感知的RL机制，Confucius4能够有效去除冗余的推理步骤，从而在保证答案准确性的同时，大幅提升推理效率。
深度中文优化：Confucius4针对中文用户进行了专项优化，其输出内容更符合中文的语言习惯和文化背景，为中文用户带来了更佳的使用体验。
开放与商用支持：Confucius4基于Apache 2.0协议开源发布，用户可以地修改、分发，并将其应用于商业项目，极大地降低了应用门槛。

Confucius4的技术内核

Confucius4之所以能够取得如此卓越的成就，离不开其背后先进的技术原理：

智能图像增益过滤：该技术能够自动识别并过滤掉对模型训练价值不大的视觉冗余信息，从而高效地构建出高性价比的多模态训练数据集，有效降低了训练成本。
迭代SFT+RL训练范式：通过不断交替进行监督微调和强化学习，Confucius4形成了一个“训练-评估-优化”的良性循环，持续推动模型在文本和多模态任务上的推理能力达到新的高度。
混合训练策略：Confucius4采用了“文本推理+多模态解题”的混合训练模式，使得纯文本推理的能力能够有效地迁移到多模态场景中，实现能力的协同增强。
精细化CoT重构：在SFT阶段，研究人员对思维链进行了人工的重构，剔除不必要的步骤，保留完整的逻辑链条，从而生成简洁且高质量的推理过程。
长度感知优势机制（Length-Aware Advantage）：在RL阶段，该机制引入了探索与利用的权衡，对于非难题场景，会约束推理长度，有效避免了模型“过度思考”的现象。

如何驾驭Confucius4

要使用Confucius4，用户需要遵循以下步骤：

环境准备：确保您的运行环境满足Qwen3.5模型的要求，并安装必要的依赖库，例如transformers。
模型加载：通过AutoModelForCausalLM和AutoProcessor，您可以方便地从HuggingFace或ModelScope加载netease-youdao/Confucius4预训练模型。
图像编码：对于多模态输入，需要使用base64将目标图片编码为数据URI格式。
消息构建：按照系统提示词模板，组装对话消息，系统角色固定为You are a helpful assistant.。
应用模板：调用processor.apply_chat_template函数处理消息，生成模型可识别的输入文本。
模型推理：设置Temperature=0.6、TopP=0.95、TopK=20等参数，然后调用model.generate函数进行推理。
结果解析：通过vLLM API调用时，最终答案可从message.content获取，而推理过程则存储在message.reasoning中。

Confucius4的突出亮点

同等规模下的SOTA性能：在Math-Hard-500（0.814）、Math-Figure（0.907）、MathVision（0.724）等多个视觉数学基准测试中，Confucius4均超越了同等规模的其他模型。
推理效率的飞跃：CoT长度缩短43.2%，在保持高准确率的同时，显著减少了输出的token数量，从而降低了推理时间和计算成本。
兼顾中英文场景：Confucius4不仅拥有强大的英文数学推理能力，更通过中文数据的定向优化，使其输出内容更符合本土用户的阅读习惯。
与Qwen生态无缝集成：Confucius4的环境要求与Qwen3.5完全一致，可以直接使用Transformers或vLLM加载，无需额外的适配工作。

Confucius4的获取途径

HuggingFace模型库：https://huggingface.co/netease-youdao/Confucius4

Confucius4与同类竞品之比较

以下表格直观展示了Confucius4在各项基准测试中的表现，与Qwen3.5-27B和Qwen3.6-27B进行了对比：

基准测试	Confucius4	Qwen3.5-27B	Qwen3.6-27B
Math-Hard-500	0.814	0.582	0.756
Math-Figure	0.907	0.866	0.865
MathVision (testmini)	0.724	0.651	0.648
logicVista	0.779	0.734	0.743
MathVerse	0.876	0.866	0.865
MathVista (testmini)	0.874	0.874	0.871
DynaMath	0.893	0.877	0.856
We-Math	0.912	0.913	0.907

Confucius4的应用场景展望

Confucius4的强大能力使其在多个教育和科研领域具有广阔的应用前景：

K12与高等教育数学辅导：作为智能助教，Confucius4能够解答各类数学难题，提供可解释的解题步骤，极大地辅助学生学习。
数学竞赛与奥赛培训：其在竞赛级难题上的高准确率，使其成为训练学生解题策略和应对高难度题型的理想工具。
智能题库解析与作业批改：Confucius4能够自动识别图像题目，生成详细的推理过程和答案，显著提升教师的批改效率。
教育硬件与在线学习平台集成：得益于与Qwen3.5生态的兼容性，Confucius4可以快速集成到学习机、教育APP等产品中，提供低延迟的实时解题服务。
科研学术辅助：Confucius4能够解析论文中的数学图表、公式推导和逻辑证明，帮助科研人员更高效地理解复杂的学术内容。

阅读原文