ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制
关键字：任务,本文,上下文,理论,模型
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学。研究方向包括深度学习理论，大语言模型理论，统计机器学习等等。目前已在 ICLR/ICML/Neurips 等 AI 顶会发表多篇论文。
上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力，但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
近期，一个来自美国伦斯勒理工大学和 IBM 研究院的团队从优化和泛化理论的角度分析了带有非线性注意力模块 (attention) 和多层感知机 (MLP) 的 Transforme

原文链接：ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制