gpt-oss – OpenAI开源的推理模型系列
GPT-OSS 是 OpenAI 推出的开源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。这两个模型均基于 MoE 架构,支持 128k 上下文长度,性能接近闭源模型,在工具调用、少样本函数调用、链式思考推理及健康问答等方面表现出色。gpt-oss-120b 拥有 1170 亿参数,激活参数约 51 亿,能在单张 80GB GPU 上运行;gpt-oss-20b 拥有 210 亿参数,激活参数约 36 亿,能在 16GB 内存的消费级设备上运行。模型基于 Apache 2.0 许可证开源,支持免费商用,为开发者提供强大的本地推理能力。
认识 GPT-OSS
GPT-OSS,全称为 OpenAI 推出的开源推理模型系列,为开发者提供了强大的本地推理解决方案。它包含两个版本:gpt-oss-120b 和 gpt-oss-20b。这两个模型的核心在于其 MoE(混合专家)架构设计,赋予它们出色的性能表现。GPT-OSS 能够胜任多种任务,包括工具调用、少样本函数调用、链式思考推理以及健康问答等,性能可与闭源模型媲美。值得一提的是,GPT-OSS 基于 Apache 2.0 许可证开源,允许免费商用,为开发者提供了极大的灵活性。
GPT-OSS 的核心功能
- 工具赋能:GPT-OSS 能够调用外部工具,如网页搜索、Python 代码解释器,从而解决复杂问题,增强问题解决能力。
- 链式思维:它具备链式思考能力,能够将复杂问题分解为多个步骤,逐步解决,尤其适合多步骤推理任务。
- 灵活部署:gpt-oss-20b 能够在 16GB 内存的设备上运行,满足消费级设备的需求;gpt-oss-120b 则可在 80GB GPU 上运行,满足高性能需求。
- 快速响应:推理速度可达 40-50 tokens/s,确保在需要快速响应的场景中表现出色。
- 开放:提供完整的模型权重和代码,支持本地微调和定制,满足特定任务需求。
- 推理强度可调:支持低、中、高三种推理强度,用户可以根据实际需求进行调整,实现延迟与性能之间的平衡。
GPT-OSS 的技术揭秘
- 模型架构:基于 Transformer 架构,GPT-OSS 采用了混合专家(MoE)技术,减少了处理输入所需的活跃参数数量,从而提升了推理效率。它还采用了交替的密集和局部带状稀疏注意力模式,类似于 GPT-3,进一步优化了内存和计算效率。此外,分组多查询注意力机制(分组大小为 8)和 RoPE 位置编码(支持最长 128k 的上下文长度)也被应用于其中,以提升推理效率和上下文处理能力。
- 训练历程:GPT-OSS 经过了精心设计和训练。预训练阶段,它使用了高质量的纯文本数据集,重点关注 STEM、编程和通用知识领域。后训练阶段则采用了与 o4-mini 类似的流程,包括监督式微调和高计算量的强化学习阶段。训练目标是让模型符合 OpenAI 模型规范,具备链式推理和工具调用能力。
- 量化与优化:GPT-OSS 采用了 MXFP4 格式进行量化,模型在训练阶段就适应了低精度环境,确保在减少模型体积的同时保持高性能。gpt-oss-20b 量化后模型大小约为 12.8GB,可在 16GB 内存设备上运行。gpt-oss-120b 量化后可在 80GB 内存中运行。此外,GPT-OSS 还与 NVIDIA、AMD 等硬件厂商合作,确保模型在各类系统上实现性能优化。
- 安全机制:GPT-OSS 在安全方面也下足了功夫。在预训练阶段,它会过滤与化学、生物、放射性和核(CBRN)相关的有害数据。通过审慎对齐和指令优先级评估,训练模型拒绝不安全提示并抵御注入攻击。此外,GPT-OSS 还会在特定领域(如生物学和网络安全)进行对抗性微调,评估并优化模型的安全性。
GPT-OSS 的性能表现
- 基准测试表现:
- 编程竞赛:在 Codeforces 竞赛编程测试中,gpt-oss-120b 取得了 2622 分,gpt-oss-20b 取得了 2516 分,表现优于部分开源模型,略逊于闭源的 o3 和 o4-mini。
- 通用问题解决:在 MMLU 和 HLE 测试中,gpt-oss-120b 表现优于 OpenAI 的 o3-mini,并接近 o4-mini 的水平。
- 工具调用能力:在 TauBench 智能体评估套件中,gpt-oss-120b 和 gpt-oss-20b 的表现均优于 OpenAI 的 o3-mini,达到或超过了 o4-mini 的水平。
- 健康问答:在 HealthBench 测试中,gpt-oss-120b 的表现超越了 o4-mini,而 gpt-oss-20b 则达到了与 o3-mini 相当的水平。
产品信息
- 产品官网:https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
- GitHub 仓库:https://github.com/openai/gpt-oss
- HuggingFace 模型库:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4
- 在线体验 Demo:https://gpt-oss.com/
GPT-OSS 的应用场景
- 本地推理与数据安全:在涉及隐私的领域(如医疗、金融),GPT-OSS 可以在本地设备上运行,确保数据安全,同时提供强大的推理能力。
- 代码辅助与开发提效:开发者可以利用 GPT-OSS 调用工具生成和验证代码片段,显著提升编程效率,减少调试时间。
- 智能客服与客户服务:企业可以部署 GPT-OSS 作为智能客服,快速响应客户咨询,提供准确答案,降低人力成本。
- 教育辅助与学习支持:学生可以借助 GPT-OSS 辅助学习,解答问题、提供写作建议,提升学习效率和理解能力。
- 创意内容生成:作家、编剧、游戏开发者等可以利用 GPT-OSS 生成创意内容,激发灵感,提升创作效率。
常见问题
Q: GPT-OSS 与其他开源模型相比有什么优势?
A: GPT-OSS 提供了强大的性能,尤其在工具调用、链式思考推理等任务上表现出色,同时支持本地部署,确保数据安全与隐私。它的低资源需求也使其能够在各种设备上运行。
Q: 如何开始使用 GPT-OSS?
A: 您可以访问 GitHub 仓库和 HuggingFace 模型库,获取模型权重和代码,进行本地部署和微调。您也可以通过在线体验 Demo 快速上手。
Q: GPT-OSS 的模型大小和硬件要求是什么?
A: GPT-OSS 包含两个版本:gpt-oss-20b(210 亿参数,可在 16GB 内存设备上运行)和 gpt-oss-120b(1170 亿参数,需要在 80GB GPU 上运行)。