原标题:超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
文章来源:新智元
内容字数:4026字
艾伦人工智能研究所发布全新开源大模型Tülu 3 405B
本文总结了艾伦人工智能研究所(Ai2)发布的全新开源大模型Tülu 3 405B 的关键信息。该模型在多个基准测试中表现出色,甚至超越了DeepSeek v3和GPT-4o等模型。
1. Tülu 3系列模型的性能突破
Ai2此前已发布Tülu 3 8B和70B版本,其性能已超越同等参数规模的Llama 3.1 Instruct版本。最新发布的Tülu 3 405B在多个标准基准测试中,实现了与DeepSeek v3和GPT-4o相当或更优的性能,并超越了其他同等参数规模的开源模型,如Llama 3.1 405B Instruct和Nous Hermes 3 405B。 虽然在线体验版在一些简单问题上表现欠佳,但在需要推理的复杂问题上展现了正确的解决思路。
2. Tülu 3的完整开源与训练方法
与许多其他模型不同,Ai2 罕见地完整公开了Tülu 3 的训练数据、代码和方法,这对于推动开源大模型的发展具有重要意义。 其训练过程包括四个阶段:1) 精心策划和合成式提示;2) 监督微调,优化核心技能并保证模型安全性;3) 偏好微调,利用GPT-4o对不同模型的回答进行评估;4) 可验证奖励强化学习(RLVR),针对可验证结果的任务(如数学问题)进行强化学习。
3. 可验证奖励强化学习(RLVR) 的作用
Tülu 3 使用了创新的RLVR方法,该方法在更大规模模型(如405B)上对数学性能的提升更为显著。这可能是因为大型模型更适合处理需要专门数据的复杂任务。 RLVR 通过明确判断问题是否完成来更新策略函数,从而提升模型性能。
4. 训练过程与资源
Tülu 3 405B 的训练使用了32个节点(256个GPU),并采用了vLLM进行模型部署。由于计算资源的限制,训练时间受到限制,但结果显示模型性能仍有提升空间。
5. Tülu 3 的开源贡献
Tülu 3 项目完全开源了数据、评估方法、训练代码和开发配方,为其他研究者提供了宝贵的资源。 这标志着开放后训练研究的一个新的里程碑,为未来大模型的研究和发展提供了重要的参考价值,也为开发者提供了可借鉴的训练方法。
6. 访问途径
Tülu 3 8B和70B版本已支持ollama下载,方便用户本地部署使用,405B版本也预计会很快上线。 论文和代码可在Ai2的GitHub仓库和Arxiv上找到。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。