随着有关顶级人工智能公司在开发更新、更强大的大型语言模型方面面临困难的谣言和报道不断流传,人们的注意力越来越多地转向“Transformer”的替代架构。
原标题:Liquid AI 发布新 STAR 模型架构,称比 Transformer 效率更高
文章来源:AI前线
内容字数:5857字
人工智能架构设计的创新进展
随着顶级人工智能公司在开发大型语言模型(LLM)方面遇到困难,研究者开始关注“Transformer”的替代架构。麻省理工学院的初创公司Liquid AI近期报告了在自动化神经网络架构设计方面的进展,尤其是他们开发的基于进化算法的定制架构合成(STAR)算法。
1. STAR算法的核心创新
STAR算法通过将模型架构表示为称为STAR基因组的分层数值序列,自动化了架构发现和优化的过程。Liquid AI利用进化优化原理对这些基因组进行迭代,以形成高性能的模型架构。进化过程可以根据静态和动态目标进行指导,确保生成的架构既新颖又高效。
2. 线性输入可变系统(LIV)的应用
Liquid AI提出了一类新的通用计算单元——线性输入可变系统(LIV),为深度学习中的现代计算单元提供了新的设计框架。LIV的设计可以根据输入上下文调节其计算,从而优化模型性能。这种设计不仅提高了模型质量,还降低了参数数量和延迟。
3. 性能优于传统架构
Liquid AI通过STAR算法合成的架构在多个基准测试中表现优于传统的Transformer和混合架构。尤其是在优化质量时,经过评估的STAR进化架构在下游评估基准中的表现超过了注意力循环混合架构,显示出其强大的设计潜力。
4. 多目标优化的灵活性
STAR算法具备多目标优化能力,能够同时考虑质量、模型大小和延迟等因素。这使得Liquid AI能够设计出适用于边缘计算和资源受限环境的高效模型。此外,STAR还为架构设计提供了分析工具,帮助识别进化过程中的重复主题,推动性能的进一步提升。
5. 未来的研究方向
Liquid AI希望通过进一步完善STAR的进化算法和初始种群,使每一代架构都优于前一代,并将类似的方法应用于其他模块化设计领域。随着对架构模式和目标的理解不断加深,Liquid AI的架构设计将持续推动人工智能技术的发展。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。