Absolute Zero

Absolute Zero – 清华大学等机构推出的语言模型推理训练方法

Absolute Zero

绝对零度（Absolute Zero）是一种由清华大学LeapLab团队与北京通用人工智能研究院NLCo实验室及宾夕法尼亚州立大学共同研发的新型语言模型推理训练方法。该方法依赖于模型自我生成任务并自主解决，推动自我进化学习，完全不需要人工标注的数据或预设任务。

绝对零度是什么

绝对零度是一种创新的语言模型推理训练方法，由清华大学的LeapLab团队与北京通用人工智能研究院NLCo实验室及宾夕法尼亚州立大学共同推出。它的核心在于模型通过自主提出和解决任务，实现自我进化学习，完全不依赖人类的标注数据或设计任务。模型在提出任务时会获得可学习性奖励，而在解决问题时则获得解答奖励，通过与环境的互动不断优化其推理能力。绝对零度旨在将推理模型的学习模式从依赖人类监督转变为依赖环境反馈，使模型能够通过真实环境的反应生成可验证的任务，从而提升性能。

绝对零度的主要功能

自主任务生成：模型可自主生成具有学习价值的任务，这些任务既不简单也不过于复杂，能够为模型提供有效的学习信号。
自主任务解决：模型作为求解者，尝试解决自己提出或生成的任务，并通过环境反馈验证解答的正确性。
推理能力提升：通过不断提出和解决任务，模型的推理能力（如归纳、演绎、溯因等）得以持续增强。
跨领域泛化：基于自我学习获得的通用推理能力，模型能够迁移到新的任务和领域中。
零数据训练：完全不依赖人工标注数据或人类设计的任务，而是通过与环境的互动和反馈进行学习。

绝对零度的技术原理

双重角色模型：模型同时扮演任务生成者（Proposer）和任务求解者（Solver），两者共享参数并同步优化。
环境反馈机制：模型与环境（如代码执行器）互动，环境验证任务的可解性并提供反馈。生成的任务会根据难度和模型的解答成功率获得可学习性奖励，而解决的任务则基于解答的正确性获得解答奖励。
强化学习优化：利用强化学习算法（如TRR++）来优化模型参数，结合可学习性奖励和解答奖励，实现多任务下的自我进化学习。
推理模式支持：支持演绎（Deduction）、溯因（Abduction）和归纳（Induction）三种基本推理模式，每种模式对应不同的任务类型，提升特定的推理能力。
自博弈闭环：模型不断提出新任务、解决任务，并根据环境反馈更新策略，形成一个闭环的自博弈学习过程，确保模型持续优化自身能力，无需外部数据支持。