通过改变 LLM 训练目标,可以重用现有数据以及更多的测试时计算来训练模型以做得更好。
原标题:如何优化测试时计算?解决「元强化学习」问题
文章来源:机器之心
内容字数:8062字
优化大模型测试时计算:一种基于元强化学习的新方法
本文探讨了如何通过优化大型语言模型(LLM)的测试时计算来提升模型效率和解决数据瓶颈问题。传统LLM训练方法主要依赖于大量高质量数据进行监督微调或强化学习,但这种方法面临数据耗尽和扩展瓶颈。
1. 传统方法的局限性
传统的LLM训练方法侧重于让模型产生最佳输出结果,即学习“什么答案”。这种“一刀切”的方法在面对分布外查询或复杂推理问题时,表现不佳,无法有效适应任务的异质性。
2. 新的训练目标:学习“如何回答”
文章提出了一种新的训练方法,即让模型在测试时利用计算资源,学习“元策略”或算法,从而理解“如何”得出正确答案,而不是直接学习“什么答案”。这种方法旨在赋予模型系统性程序运行能力,使其能够在测试时泛化到不同复杂度的输入查询。
3. 将“学习如何回答”形式化为元强化学习问题
文章将“学习如何回答”的目标形式化为一个优化问题,并通过元强化学习的思路来解决。每个问题被视为一个马尔可夫决策过程(MDP),模型生成的token序列作为动作,奖励函数则根据答案的正确性进行评估。学习目标是找到一个算法,在有限的计算预算内,能够快速适应测试问题的分布,并获得高奖励。
4. 元强化学习的应用
文章建议使用元强化学习方法来解决该优化问题。模型通过在测试时执行多个“训练”回合来适应测试任务,然后在测试回合上进行评估。每个回合都应提供信息增益,以便在后续回合中表现更好。即使没有外部工具,模型也能通过调整先前生成的token来获得信息,改进对最优解的后验近似。
5. 解决元强化学习问题的方法
文章探讨了两种解决元强化学习问题的方法:一种是使用黑盒元强化学习方法,最大化输出轨迹中“episodes”的奖励总和;另一种是只优化测试回合的奖励,避免量化信息增益的需要。这两种方法都可以通过多轮强化学习算法来实现。
6. 总结
文章提出了一种通过优化LLM测试时计算来提升模型性能的新方法,该方法将训练目标从学习“什么答案”转变为学习“如何回答”,并利用元强化学习来解决相应的优化问题。这种方法有望克服传统LLM训练方法的数据瓶颈,并提升模型在复杂推理任务中的表现。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台