TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法
TTT-Discover:一种革新性的AI科学发现范式
TTT-Discover,意为“测试时训练以发现”(Test-Time Training to Discover),是斯坦福大学、英伟达等顶尖研究机构联手打造的一项前沿AI科学发现技术。这项技术突破性地将模型的强化学习训练置于“测试”阶段,而非传统的“训练”阶段,并且在不冻结模型权重的前提下,专注于智能搜索。通过精心设计的熵目标函数来最大化预期奖励,并辅以受PUCT算法启发的动态状态重用机制,TTT-Discover能够让AI在面对具体问题时,通过不断的尝试与试错,实现实时的学习与进化。
TTT-Discover 的核心亮点在于其“边学边用”的能力。它基于强大的开源模型gpt-oss-120b,已在数学难题攻坚、GPU内核优化、算法竞赛挑战以及生物信息学数据分析等多个领域取得了超越现有水平(SOTA)的成就。尤为令人瞩目的是,其解决单一问题的成本被控制在数百美元的低水平,极大地降低了AI驱动科学发现的门槛。
TTT-Discover 的独特之处体现在其多方面的关键功能:
- 动态适应性学习:在解决实际问题的过程中,模型权重能够实时动态调整。这种持续的学习机制使得AI能够从每一次的“失败”尝试中汲取宝贵经验,并以此为导向,进行定向的“进化”,不断逼近最优解。
- 突破性科学探索:针对数学、工程、算法设计及生命科学等领域的开放性难题,TTT-Discover致力于发掘超越当前认知边界的创新性解决方案。
- 高效智能搜索:通过优化熵目标函数,模型能够聚焦于那些能带来最高潜在奖励的行为。同时,结合PUCT机制,它能智能地复用过往的有效状态信息,巧妙地平衡了探索未知与利用已知之间的关系。
- 经济高效的卓越表现:利用现有的开源模型,TTT-Discover就能在众多复杂任务中达到顶尖水平,且每项任务的训练成本仅需几百美元,实现了高性能与低成本的完美结合。
深入剖析TTT-Discover的技术原理,我们可以看到其精妙之处:
- 熵目标函数的精细调控:其优化目标被设定为 Jβ(θ)=E[logE[eβR]] 。当参数 β 趋向无穷大时,该目标函数会逐渐收敛于最大化单一极优奖励,而非仅仅提升平均奖励,从而确保模型能够集中精力去寻找那个“最佳”解决方案。为了维持训练过程的稳定性,它还引入了自适应的 β(s) 参数来精确控制 KL 散度。
- PUCT启发的状态复用策略:TTT-Discover 维护了一个历史解的存储库。在选择初始状态时,它采用了一种评分函数:Q(s)+c⋅P(s)⋅(1+n(s))1/2 / (1+T1/2)。这里的 Q(s) 指的是子节点的最高奖励(而非平均值),P(s) 则是一个基于奖励排名的先验知识。这种设计巧妙地兼顾了对高潜力状态的充分利用以及对新颖探索路径的鼓励。
TTT-Discover 的创新应用场景极为广泛,正深刻地影响着多个科研和工程领域:
- 数学研究的突破:在数学领域,TTT-Discover 已被用于优化如 Erdős 最小重叠问题、自相关不等式等开放性数学难题的边界值,并成功发现了全新的构造性证明方法。
- GPU内核工程的加速:在高性能计算领域,它能够自动化生成性能卓越的计算内核,例如为 AlphaFold 优化 TriMul 算子,以及为 DeepSeek 加速 MLA 解码过程,其效率甚至超越了人类专家的水平。
- 算法竞赛的利器:对于 AtCoder 等编程竞赛中的 NP-hard 优化问题,如复杂的几何计算、生产计划调度等,TTT-Discover 展现出了强大的解决能力。
- 生物信息学的革新:在生物信息学领域,TTT-Discover 能够显著改进单细胞 RNA 测序数据的去噪算法,从而大幅提升基因表达数据的分析精度。
欲深入了解 TTT-Discover 的技术细节,请参阅其在 arXiv 上的技术论文:https://arxiv.org/pdf/2601.16175。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号