日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务

在人工智能领域,适应性的概念具有类似的吸引力。

日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务

原标题:日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务
文章来源:AI前线
内容字数:8104字

Transformer²:赋能自适应人工智能的新方法

本文介绍了Sakana AI团队最新研究成果Transformer²,一种能够动态调整权重以适应各种任务的机器学习系统。该系统借鉴了自然界中生物体适应性的概念,例如章鱼变色和人类大脑自我重塑的能力,旨在创造更灵活、高效的人工智能模型。

1. 适应性:人工智能的未来

文章指出,适应性是自然界和人工智能领域都极具吸引力的概念。Transformer²的目标是让机器学习系统能够像生物体一样,在不断变化的环境中动态调整自身,从而提高效率并实现终身学习。

2. LLM“大脑”剖析:奇异值分解(SVD)

文章将大型语言模型(LLM)的权重矩阵比作人类大脑,知识存储在其中。为了理解并有效调整LLM以适应新任务,研究人员利用奇异值分解(SVD)技术,将复杂的权重矩阵分解成更小、更的组件,类似于对大脑进行“手术”,从而更好地理解和控制模型的学习过程。

3. Transformer²的工作机制

Transformer²采用两步流程:首先分析传入的任务要求,然后应用特定于任务的调整生成最佳结果。核心在于其动态调整权重矩阵关键组件的能力。训练阶段使用奇异值微调(SVF)和强化学习(RL)来增强或抑制不同组件的信号;推理阶段则采用基于提示、基于分类器和小样本三种自适应方法来检测任务并相应调整权重。

4. SVF和RL训练:学习任务“专家”

SVF学习一组z向量,每个向量代表一项任务的“专家”,指定权重矩阵中每个分量的期望强度,如同调节不同组件对模型行为的影响的“放大器”或“阻尼器”。强化学习用于在一组预定义的下游任务上学习这些z向量,从而使Transformer²能够适应各种新任务,同时仅引入少量附加参数。

5. 自适应策略:三管齐下

Transformer²在推理时采用三种自适应方法:基于提示的自适应、基于分类器的自适应和小样本自适应。这三种方法结合,确保了模型能够稳健高效地适应不同任务。

6. 主要成果:超越传统方法

实验结果表明,Transformer²在数学、编码、推理和视觉理解等任务上均取得了显著进展,优于LoRA等传统静态方法,同时所需参数更少。尤其是在小样本学习中,模型能够巧妙地结合不同任务的“专家”知识,实现最佳性能。

7. 跨模型知识转移:潜力无限

研究人员还探索了跨模型知识转移的可能性,发现将学习到的z向量从一个模型转移到另一个模型可以提高后者在大多数任务上的性能,这为未来人工智能模型的开发提供了新的方向。

8. 未来展望:迈向生命智能

Transformer²代表了人工智能系统发展的一个重要里程碑。它展现了自适应LLM在彻底改变人工智能研究和应用方面的巨大潜力,预示着未来人工智能系统将不再是静态实体,而是能够像生物体一样不断学习、进化和适应的“生命智能”。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...