gpt-oss

gpt-oss – OpenAI开源的推理模型系列

GPT-OSS 是 OpenAI 推出的开源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。这两个模型均基于 MoE 架构，支持 128k 上下文长度，性能接近闭源模型，在工具调用、少样本函数调用、链式思考推理及健康问答等方面表现出色。gpt-oss-120b 拥有 1170 亿参数，激活参数约 51 亿，能在单张 80GB GPU 上运行；gpt-oss-20b 拥有 210 亿参数，激活参数约 36 亿，能在 16GB 内存的消费级设备上运行。模型基于 Apache 2.0 许可证开源，支持免费商用，为开发者提供强大的本地推理能力。

认识 GPT-OSS

GPT-OSS，全称为 OpenAI 推出的开源推理模型系列，为开发者提供了强大的本地推理解决方案。它包含两个版本：gpt-oss-120b 和 gpt-oss-20b。这两个模型的核心在于其 MoE（混合专家）架构设计，赋予它们出色的性能表现。GPT-OSS 能够胜任多种任务，包括工具调用、少样本函数调用、链式思考推理以及健康问答等，性能可与闭源模型媲美。值得一提的是，GPT-OSS 基于 Apache 2.0 许可证开源，允许免费商用，为开发者提供了极大的灵活性。

GPT-OSS 的核心功能

工具赋能：GPT-OSS 能够调用外部工具，如网页搜索、Python 代码解释器，从而解决复杂问题，增强问题解决能力。
链式思维：它具备链式思考能力，能够将复杂问题分解为多个步骤，逐步解决，尤其适合多步骤推理任务。
灵活部署：gpt-oss-20b 能够在 16GB 内存的设备上运行，满足消费级设备的需求；gpt-oss-120b 则可在 80GB GPU 上运行，满足高性能需求。
快速响应：推理速度可达 40-50 tokens/s，确保在需要快速响应的场景中表现出色。
开放：提供完整的模型权重和代码，支持本地微调和定制，满足特定任务需求。
推理强度可调：支持低、中、高三种推理强度，用户可以根据实际需求进行调整，实现延迟与性能之间的平衡。

GPT-OSS 的技术揭秘

模型架构：基于 Transformer 架构，GPT-OSS 采用了混合专家（MoE）技术，减少了处理输入所需的活跃参数数量，从而提升了推理效率。它还采用了交替的密集和局部带状稀疏注意力模式，类似于 GPT-3，进一步优化了内存和计算效率。此外，分组多查询注意力机制（分组大小为 8）和 RoPE 位置编码（支持最长 128k 的上下文长度）也被应用于其中，以提升推理效率和上下文处理能力。
训练历程：GPT-OSS 经过了精心设计和训练。预训练阶段，它使用了高质量的纯文本数据集，重点关注 STEM、编程和通用知识领域。后训练阶段则采用了与 o4-mini 类似的流程，包括监督式微调和高计算量的强化学习阶段。训练目标是让模型符合 OpenAI 模型规范，具备链式推理和工具调用能力。
量化与优化：GPT-OSS 采用了 MXFP4 格式进行量化，模型在训练阶段就适应了低精度环境，确保在减少模型体积的同时保持高性能。gpt-oss-20b 量化后模型大小约为 12.8GB，可在 16GB 内存设备上运行。gpt-oss-120b 量化后可在 80GB 内存中运行。此外，GPT-OSS 还与 NVIDIA、AMD 等硬件厂商合作，确保模型在各类系统上实现性能优化。
安全机制：GPT-OSS 在安全方面也下足了功夫。在预训练阶段，它会过滤与化学、生物、放射性和核（CBRN）相关的有害数据。通过审慎对齐和指令优先级评估，训练模型拒绝不安全提示并抵御注入攻击。此外，GPT-OSS 还会在特定领域（如生物学和网络安全）进行对抗性微调，评估并优化模型的安全性。

GPT-OSS 的性能表现

基准测试表现：
- 编程竞赛：在 Codeforces 竞赛编程测试中，gpt-oss-120b 取得了 2622 分，gpt-oss-20b 取得了 2516 分，表现优于部分开源模型，略逊于闭源的 o3 和 o4-mini。
- 通用问题解决：在 MMLU 和 HLE 测试中，gpt-oss-120b 表现优于 OpenAI 的 o3-mini，并接近 o4-mini 的水平。
- 工具调用能力：在 TauBench 智能体评估套件中，gpt-oss-120b 和 gpt-oss-20b 的表现均优于 OpenAI 的 o3-mini，达到或超过了 o4-mini 的水平。
- 健康问答：在 HealthBench 测试中，gpt-oss-120b 的表现超越了 o4-mini，而 gpt-oss-20b 则达到了与 o3-mini 相当的水平。