Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

AIGC动态5个月前发布 新智元
342 0 0

Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重

原标题:Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重
文章来源:新智元
内容字数:6474字

Sakana AI提出Transformer²:赋予LLM实时适应能力

大型语言模型(LLM)的传统微调方法耗时费力,且难以应对多样化任务。Sakana AI的研究团队为此提出了一种名为Transformer²的新方法,它能够让LLM实时适应未见过的任务,显著提升模型的泛化和自适应能力。

1. LLM的“大脑”与奇异值分解

文章将LLM的权重矩阵比作人类大脑,存储着模型学习到的知识。为了理解并有效调整这个“大脑”,研究人员利用奇异值分解(SVD)将权重矩阵分解成更小、更的组件,如同将大脑中的知识路径分解成更小的模块。

2. Transformer²的两步过程

Transformer²包含两个核心步骤:首先,模型分析传入的任务,理解其需求;然后,应用任务专用的适应性调整,生成最佳结果。这通过动态调整权重矩阵中的关键组件实现。

3. 奇异值微调(SVF)与强化学习(RL)

在训练阶段,Transformer²采用奇异值微调(SVF)方法,利用强化学习(RL)来增强或抑制不同组件的信号,使其适应多种下游任务。每个任务对应一个z向量,该向量指定了每个组件的期望强度,如同“放大器”或“衰减器”。

4. 三种自适应策略

在推理阶段,Transformer²采用三种自适应策略:基于提示的适应、基于分类器的适应和少样本适应。这些策略能够根据任务或输入提示,选择或组合合适的z向量来调整模型权重,生成最佳响应。

5. 实验结果与知识转移

实验结果表明,Transformer²在数学、代码、推理和视觉问答等任务上均优于LoRA,尤其是在未见过的任务上表现出色。更令人兴奋的是,该方法还展现出模型知识转移的潜力:将一个模型学习到的z向量转移到另一个模型,也能提升后者的性能。

6. “智能”的未来

Transformer²为LLM的未来发展指明了方向:AI系统将不再是静态实体,而是能够不断学习、演化和适应的“智能”。这将推动高效、个性化、完全集成的AI工具的开发,并在各个行业带来进步。

总而言之,Transformer²通过巧妙地利用SVD和RL,实现了LLM的实时自适应能力,为构建更灵活、高效和智能的AI系统开辟了新的道路。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...