Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%
关键字：注意力,卷积,算子,序列,研究人员
文章来源：新智元
内容字数：8804字

内容摘要：

新智元报道编辑：LRS
【新智元导读】Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？最近几年发布的AI模型，如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构，但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势，这一特性严重限制了Transformer在长序列下的应用，例如无法一次性处理一整本书，或是处理千兆像素级别的图像。
即便强如GPT-4也难以摆脱这种缺陷。
最近，Together Research开源了一个全新的语言模型StripedHyena，采用了针对「长上下文」的新架构，可以处理高达128k个token的长上下文，并且改进了Transformer架构在训练和推理上的性能，为目前的主流架构提供了一种可选方案。开源链接：https://github.com/togethercomputer/stripedhyena
StripedHyena也是「首个」在短上下文和长上下文评估中，以相同模型尺寸，实现了与最佳开源Transformer模型

原文链接：Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%