突破极限!全新后训练模型震撼发布,性能全面超越Llama 3.1 Instruct!

AIGC动态1个月前发布 机器之心
14 0 0

长达 73 的技术报告详细介绍了后训练的细节。

突破极限!全新后训练模型震撼发布,性能全面超越Llama 3.1 Instruct!

原标题:这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
文章来源:机器之心
内容字数:7615字

开源模型新宠:Tülu 3 的崛起

根据机器之心的报道,艾伦人工智能研究所(Ai2)推出了开源模型Tülu 3,成为开源模型阵营中的新亮点。该模型目前有8B和70B两个版本,并计划在未来推出405B版本。最新数据显示,Tülu 3的性能超过了Llama 3.1 Instruct的对应版本。

后训练方法的创新

Tülu 3的技术报告长达73页,详细介绍了其后训练(post-training)方法。后训练被认为是提升模型性能的关键,尤其是在数学、代码和长程规划等领域。Ai2通过引入新的数据集和训练流程,试图缩小开源模型和封闭模型之间的性能差距。

四阶段后训练流程

Tülu 3的后训练过程分为四个阶段:

  1. 数据整理:Ai2整理了多种提示信息,并确保其不受评估数据集污染。
  2. 监督微调:通过选定的提示和答案结果进行监督微调,增强模型核心技能。
  3. 偏好微调:采用直接偏好优化(DPO)方法构建新的偏好数据集,以提升模型性能。
  4. 可验证奖励强化学习:通过可验证的任务进行强化学习,仅在生成结果被验证为正确时给予奖励。

Tülu 3 的评估与表现

Ai2为Tülu 3设计了一套评估框架,展示了该模型在多个基准测试中的优异表现。尤其是在指令遵从、知识调用和数学推理等方面,Tülu 3的表现与Claude 3.5 Haiku相当,甚至在部分场景中表现更佳。

安全性与未来展望

在安全性评估中,Tülu 3相较于其他开源模型也展现出优势。Ai2不仅发布了模型,还公开了所有数据集、训练配方和代码,推动开源模型社区的发展。未来,Ai2可能会基于Qwen进行Tülu模型的进一步训练,期待更多研究者能够在后训练领域进行创新。

综上所述,Tülu 3的推出标志着开源模型在性能和透明度方面的显著进步,将为研究者提供更多的实验基础和灵感。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...