Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

扩展,扩展,还是扩展!

Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

原标题:Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式
文章来源:机器之心
内容字数:19621字

Jason Wei:大型语言模型的扩展范式与未来展望

机器之心编辑部对Jason Wei这个名字一定不陌生。他是OpenAI资深研究科学家,思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者,其工作对思维链提示、指令微调和涌现现象等技术和概念的普及贡献巨大。近日,他在宾夕法尼亚大学的客座讲座视频和幻灯片公开,机器之心对主要内容进行了整理。

1. 扩展的定义与重要性

传统上,扩展指增加模型规模、数据量和GPU数量。Wei给出了更具体的定义:扩展是将自身置于可沿连续轴移动并期望持续改进的状态。尽管扩展面临技术和心理挑战(如高昂成本、对算法改进的偏好、激励机制的错配),但它是AI进步的关键引擎,并将继续主导该领域的发展。

2. 扩展范式一:下一词预测

从2018年至今,下一词预测是主流范式。它实际上是一个大规模多任务学习过程,通过预测下一词,模型学法、世界知识、情感分析、翻译等多种能力。模型的整体准确率是多个子任务加权和,涌现现象正是由于不同任务提升速度不同所致。虽然下一词预测可能最终实现AGI,但其处理复杂任务存在局限性,需要持续扩展。

3. 扩展范式二:基于思维链扩展强化学习

思维链(CoT)让模型像人类一样展示推理过程。OpenAI通过强化学习优化模型的思维链能力,使其更好地解决复杂问题。o1项目是这一范式的代表,它能进行多步推理,解决复杂问题,例如竞赛数学题。这表明,延长模型思考时间,提升推理能力,是扩展的另一个重要方向。

4. AI 文化的变革

扩展改变了AI研究文化:研究重点从改进算法转向改进数据质量;基准测试被“饱和”的速度加快;从单任务模型转向高度多任务模型;智能和用户体验成为可分别改进的维度;需要更大规模的团队合作。

5. 未来展望

Wei展望了AI的未来发展方向:AI在科学和医疗健康领域的应用;提高事实准确性,减少虚假信息;发展多模态AI能力;增强工具使用能力;扩大AI应用范围。他认为,持续扩展将推动未来五年AI取得更大的进步,并以“just keep scaling”作为演讲结束语。

总而言之,Jason Wei的演讲强调了扩展在大型语言模型发展中的核心作用,并指出了未来研究的重点方向,即通过持续扩展模型规模、数据质量以及推理能力,最终实现AGI的可能性。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...