如何优化测试时计算？解决「元强化学习」问题

通过改变 LLM 训练目标，可以重用现有数据以及更多的测试时计算来训练模型以做得更好。

原标题：如何优化测试时计算？解决「元强化学习」问题
文章来源：机器之心
内容字数：8062字

本文探讨了如何通过优化大型语言模型(LLM)的测试时计算来提升模型效率和解决数据瓶颈问题。传统LLM训练方法主要依赖于大量高质量数据进行监督微调或强化学习，但这种方法面临数据耗尽和扩展瓶颈。

传统的LLM训练方法侧重于让模型产生最佳输出结果，即学习“什么答案”。这种“一刀切”的方法在面对分布外查询或复杂推理问题时，表现不佳，无法有效适应任务的异质性。

文章提出了一种新的训练方法，即让模型在测试时利用计算资源，学习“元策略”或算法，从而理解“如何”得出正确答案，而不是直接学习“什么答案”。这种方法旨在赋予模型系统性程序运行能力，使其能够在测试时泛化到不同复杂度的输入查询。

文章将“学习如何回答”的目标形式化为一个优化问题，并通过元强化学习的思路来解决。每个问题被视为一个马尔可夫决策过程(MDP)，模型生成的token序列作为动作，奖励函数则根据答案的正确性进行评估。学习目标是找到一个算法，在有限的计算预算内，能够快速适应测试问题的分布，并获得高奖励。

文章建议使用元强化学习方法来解决该优化问题。模型通过在测试时执行多个“训练”回合来适应测试任务，然后在测试回合上进行评估。每个回合都应提供信息增益，以便在后续回合中表现更好。即使没有外部工具，模型也能通过调整先前生成的token来获得信息，改进对最优解的后验近似。

文章探讨了两种解决元强化学习问题的方法：一种是使用黑盒元强化学习方法，最大化输出轨迹中“episodes”的奖励总和；另一种是只优化测试回合的奖励，避免量化信息增益的需要。这两种方法都可以通过多轮强化学习算法来实现。

文章提出了一种通过优化LLM测试时计算来提升模型性能的新方法，该方法将训练目标从学习“什么答案”转变为学习“如何回答”，并利用元强化学习来解决相应的优化问题。这种方法有望克服传统LLM训练方法的数据瓶颈，并提升模型在复杂推理任务中的表现。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...