360 推出国产自研 AI 大模型，多项评测优于GPT-4o

AI工具2年前 (2024)发布 AI工具集

产品名称：360gpt2-o1
产品简介：360gpt2-o1 是 360 自研的 AI 大模型，在推理能力上有显著提升，特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，在多项权威评测中取得了优异成绩。
详细介绍：

360gpt2-o1是什么

360gpt2-o1是 360 自研的 AI 大模型，在推理能力上有显著提升，特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，在多项权威评测中取得了优异成绩。在基础数学评测（如 MATH、高考数学）以及权威数学竞赛（包括 AIME24、AMC23）中，360gpt2-o1 超越了前代模型 360gpt2-pro，优于 GPT-4o 模型。在数学竞赛评测中，360gpt2-o1 超过了阿里巴巴最新开源的 o1 系列模型 QWQ-32B-preview。

360gpt2-o1的主要功能

推理能力提升：360gpt2-o1 在数学和逻辑推理任务上表现出色，特别是在推理能力上有显著提升。
合成数据优化：通过指令合成、质量/多样性筛选等方法，解决了高质量数学与逻辑推理数据稀缺的问题，有效扩充了训练数据集。
模型后训练：采用两阶段训练策略，先用小模型生成多样化的推理路径，再用大模型进行 RFT 训练和强化学习训练，提升模型推理能力和反思纠错能力。
“慢思考”范式：基于蒙特卡洛树搜索探索多样化解决方案，引入 LLM 进行错误验证和纠错，模拟人类逐步推理和反思的过程，最终形成包含反思、验证、纠错和回溯的长思维链。

360gpt2-o1的技术原理

数据合成与筛选：通过合成数据优化，360gpt2-o1能生成和筛选出高质量的训练数据，这些数据对于模型的训练至关重要。
两阶段训练策略：第一阶段使用小模型生成推理路径，第二阶段使用大模型进行训练，使模型能在保持推理多样性的同时，提升推理的准确性和深度。
蒙特卡洛树搜索与LLM结合：通过蒙特卡洛树搜索，模型能探索多种可能的解决方案，LLM的引入则为模型提供了错误验证和纠错的能力，增强了模型的鲁棒性。

如何使用360gpt2-o1

访问360智脑：目前360gpt2-o1 已上线360智脑API开放平台。
体验地址：https://ai.360.com/playground/?model=360gpt2-o1?src=weixinmp

360gpt2-o1的应用场景

数学问题解决：360gpt2-o1 在基础数学评测（如MATH、高考数学）以及权威数学竞赛（包括AIME24、AMC23）中取得了显著的成绩，表明在数学问题解决方面的强大能力。
逻辑推理：模型通过“慢思考”技术，模拟人类逐步推理和反思的过程，具备解决复杂逻辑问题的能力。
编程问题：在数学、编程等领域的表现上接近甚至超越了o1，360gpt2-o1在编程问题解决上提供支持。
复杂问题解决：360gpt2-o1 能处理需要深层次逻辑推理能力的复杂问题，包括自我反思与纠错的能力。
教育和学术：模型在教育领域的数学和逻辑问题上的应用，可以辅助教学和学术研究。
企业决策支持：通过逻辑推理和数据分析，360gpt2-o1 可以辅助企业在复杂决策过程中提供逻辑支持。

阅读原文