Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

AIGC动态9个月前发布 新智元
31 0 0

Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

AIGC动态欢迎阅读

原标题:Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
关键字:注意力,卷积,算子,序列,研究人员
文章来源:新智元
内容字数:8804字

内容摘要:


新智元报道编辑:LRS
【新智元导读】Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一整本书,或是处理千兆像素级别的图像。
即便强如GPT-4也难以摆脱这种缺陷。
最近,Together Research开源了一个全新的语言模型StripedHyena,采用了针对「长上下文」的新架构,可以处理高达128k个token的长上下文,并且改进了Transformer架构在训练和推理上的性能,为目前的主流架构提供了一种可选方案。开源链接:https://github.com/togethercomputer/stripedhyena
StripedHyena也是「首个」在短上下文和长上下文评估中,以相同模型尺寸,实现了与最佳开源Transformer模型


原文链接:Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...